Dissertação
Quotation attribution for Portuguese News Corpora EVALUATED
O objetivo desta tese consiste na criação de um sistema para atribuição de citações, para a língua portuguesa. A criação deste sistema surge em resposta à abundância de informação nos dias correntes. Para este fim, foi criado e anotado manualmente um conjunto de dados, o qual será disponibilizado ao público. As anotações efetuadas consistem na atribuição citações a entidades no texto e na marcação de informação de coreferência. Para a obtenção de características para treino do algoritmo, foi feito um pré-processamento do texto, adicionando informação de tokenização, reconhecimento de entidades, informação de "part-of-speech" e árvore de dependências. Foi utilizado um procedimento de aprendizagem automática, no qual um modelo é treinado com supervisão de um conjunto de documentos de notícias. O resultado esperado consiste na compilação de citações da notícia e o correspondente autor atribuído. O classificador final deverá ser adaptável a diversos formatos de notícia.
maio 19, 2014, 9:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Mário Alexandre Teles de Figueiredo
Departamento de Engenharia Electrotécnica e de Computadores (DEEC)
Professor Catedrático