Dissertação

Importance of Unimportant Words for Authorship Identification EVALUATED

Há uma abundância de documentos online e, frequentemente, esses documentos contêm informações que podem ser relevantes para diferentes aplicações. No entanto, um dos problemas associados aos documentos online é que frequentemente esses documentos são anónimos. Apesar de ser difícil identificar o autor de um texto online, estes autores geralmente deixam rastros textuais de identidade. Cada autor escreve de forma diferente, o que permite identificar o autor de textos anónimos ao extraindo as características do texto. Esta técnica também pode ser usada para determinar se um texto foi escrito pela pessoa que se intitula de autor, ou mesmo para tentar localizar o autor de um determinado texto anónimo. Para identificar correctamente um autor, é importante não apenas extrair correctamente as features do texto, mas também determinar quais são os features mais adequados para a identificação do autor. Para a nossa abordagem, nós concentraremos no na feature relacionada com palavras não importantes, uma vez que acreditamos que cada autor tem uma distribuição específica que se distinguirá de qualquer outra.
Palavras não importantes, Textos Portugueses, Identificaçao de Autores

junho 5, 2019, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Andreas Miroslaus Wichert

Departamento de Engenharia Informática (DEI)

Professor Auxiliar