Dissertação

Quotation attribution for Portuguese News Corpora EVALUATED

O objetivo desta tese consiste na criação de um sistema para atribuição de citações, para a língua portuguesa. A criação deste sistema surge em resposta à abundância de informação nos dias correntes. Para este fim, foi criado e anotado manualmente um conjunto de dados, o qual será disponibilizado ao público. As anotações efetuadas consistem na atribuição citações a entidades no texto e na marcação de informação de coreferência. Para a obtenção de características para treino do algoritmo, foi feito um pré-processamento do texto, adicionando informação de tokenização, reconhecimento de entidades, informação de "part-of-speech" e árvore de dependências. Foi utilizado um procedimento de aprendizagem automática, no qual um modelo é treinado com supervisão de um conjunto de documentos de notícias. O resultado esperado consiste na compilação de citações da notícia e o correspondente autor atribuído. O classificador final deverá ser adaptável a diversos formatos de notícia.
Atribuição de Citações, Aprendizagem Automática, Processamento de Linguagem Natural, Perceptrão

maio 19, 2014, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

André Filipe Torres Martins

Priberan

Investigador

ORIENTADOR

Mário Alexandre Teles de Figueiredo

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático