Dissertação

GEN-X2: Generation of XPath Expressions for Unsupervised Web Data Extraction EVALUATED

A Internet é amplamente utilizada por todos e é possível encontrar quase tudo online. No entanto, existe uma grande quantidade de informação de interesse que não é de fácil acesso utilizando motores de busca. Essa informação está armazenada em bancos de dados e é mostrada a partir de páginas que são geradas dinamicamente a pedido de um usuário. Estas páginas compõem a hidden web e são de grande importância, pois a informação contida nas mesmas pode ser utilizada para criar aplicações que comparam produtos, voos, etc. O objetivo deste trabalho é de ser capaz de extrair todas as informações de interesse automaticamente e não extrair a informação que não é do nosso interesse, como anúncios ou barras laterais, sem qualquer intervenção humana. Existem já diversos sistemas que são capazes de o fazer, mas todos eles têm problemas e não são completamente eficientes a realizar a tarefa. Este relatório apresenta uma nova abordagem para extrair e armazenar informação de forma não supervisionada, usando Programação Genética e XPath como recursos para chegar a uma solução. O nosso sistema, chamado GEN-X2, obteve uma precisão de 74.66% e recall de 76.06%.
Extração de informação não supervisionada, Informação visual, Hidden web, Programação Genética, XPath

Novembro 7, 2013, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Auxiliar