Dissertação

Extraction of Biographical Information from Wikipedia Texts EVALUATED

Documentos com informações biográficas são frequentemente encontrados na Web, contendo tanto padrões linguísticos interessantes, bem como informações úteis para diversas aplicações. Nesta dissertação, abordamos a difícil tarefa de extracção automática de factos biográficos a partir de documentos textuais publicados na web. Para tal, segmentamos os documentos em sequências de frases, que serão classificadas como pertencendo a um qualquer tipo específico de facto biográfico, ou caso contrário, não relacionadas com factos biográficos. Para classificar essas frases foram usados diferentes modelos de classificação tais como, Naive Bayes, Support Vector Machines, Conditional Random Fields e protocolos de votação, utilizando diferentes conjuntos de características que descrevessem as frases. Resultados experimentais comprovam a adequação das abordagens propostas, obtendo um resultado F1 de aproximadamente 84% no problema de classificação em duas classes, ao usar o classificador Naive Bayes com base nas características das palavras, comprimento, posição e vizinhança das frases. Para o problema de classificação em sete classes foi obtido um resultado F1 de aproximadamente 65%, ao usar o classificador Conditional Random Fields com base nas características das palavras, comprimento, posição, existência de expressões conhecidas e de entidades mencionadas. Finalmente, para o problema de classificação em dezanove classes foi obtido um resultado F1 de aproximadamente 59%, ao usar um classificador baseado em protocolos de votação com base nas características de comprimento, posição, existência de expressões conhecidas e de entidades mencionadas, bem como a vizinhança das frases.
Classificação de frases, Extracção de Informação Biográfica

novembro 7, 2011, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar