Dissertação

{en_GB=Importance of Unimportant Words for Authorship Identification} {} EVALUATED

{pt=Há uma abundância de documentos online e, frequentemente, esses documentos contêm informações que podem ser relevantes para diferentes aplicações. No entanto, um dos problemas associados aos documentos online é que frequentemente esses documentos são anónimos. Apesar de ser difícil identificar o autor de um texto online, estes autores geralmente deixam rastros textuais de identidade. Cada autor escreve de forma diferente, o que permite identificar o autor de textos anónimos ao extraindo as características do texto. Esta técnica também pode ser usada para determinar se um texto foi escrito pela pessoa que se intitula de autor, ou mesmo para tentar localizar o autor de um determinado texto anónimo. Para identificar correctamente um autor, é importante não apenas extrair correctamente as features do texto, mas também determinar quais são os features mais adequados para a identificação do autor. Para a nossa abordagem, nós concentraremos no na feature relacionada com palavras não importantes, uma vez que acreditamos que cada autor tem uma distribuição específica que se distinguirá de qualquer outra., en=There is an abundance of documents online and frequently this documents contain information that canbe relevant for different applications. However one of the problems associated with online documentsis that frequently those documents are anonymous. Although identity cues are scarce in cyberspace, individuals often leave behind textual identity traces. Each author writes in a different way, thus by extracting the features from the text it is possible to identify the author of anonymous texts. It can also be used to determine if a text was written by the person claiming to have written it, or even to try and find the author of a given anonymous text. To correctly identify an author it is important not only to be able to correctly extract features from texts,but also to determine what are the features most suitable for the identification of the author. For our approach, we will focus on the pattern of distribution of unimportant words, since we believe that each author has a specific distribution that will distinguish himself from any other.}
{pt=Palavras não importantes, Textos Portugueses, Identificaçao de Autores, en=Uninportant Words, Portuguese Texts, Author Identification}

Junho 5, 2019, 10:30

Orientação

ORIENTADOR

Andreas Miroslaus Wichert

Departamento de Engenharia Informática (DEI)

Professor Auxiliar