Dissertação

Diz-me o que escreves dir-te-ei quem és - Processamento de Língua Natural aplicado à literatura EVALUATED

As tarefas de identificação do autor de um documento são há muito tempo alvo do interesse da comunidade académica. A base deste trabalho é uma framework desenvolvida por Homem e Carvalho [1], em que a tarefa de identificar o autor de um documento se baseia nas top-k palavras mais frequentes de cada autor. O objetivo desta tese é avaliar se a utilização de conjunto de dados estatísticos de cada documento em conjunto com os dados relativos às top-k palavras mais frequentes, pode enriquecer a framework existente. Na tarefa de classificação dos documentos foi utilizado o Weka. Para além disso, avaliou-se o impacto da exclusão das Stop Words da lista de palavras mais frequentes. Os resultados obtidos sugerem que a utilização das features estatísticas, em conjunto com as top-k palavras mais utilizadas, veio enriquecer a framework existente. Além do mais, observou-se que a exclusão de stop Words da lista de palavras mais frequentes aumenta o desempenho desta metodologia. Finalmente, testou-se a aplicação da metodologia na tarefa de identificar outras características do autor de um documento, tais como: sexo, século de nascimento e década de nascimento. Demonstrou-se que é possível identificar o sexo do autor de um documento e o seu século de nascimento. Mas, quando se tenta identificar a década de nascimento de um autor os resultados obtidos são francamente inferiores.
Identificação do autor, features, Weka, stylometrics, stop words

Junho 2, 2015, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

João Paulo Baptista de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar