Dissertação

Atualização Semi-Automática dos Recursos da STRING EVALUATED

O Reconhecimento de Entidades Mencionadas (REM) consiste na identificação e classificação de certos elementos do texto de acordo com uma tipologia de entidades, por exemplo, nomes de pessoas, de organizações, de locais, de eventos ou datas. O REM é uma tarefa muito importante para o Processamento da Língua Natural pois permite relacionar as unidades elementares de um texto, melhorando a sua compreensão. O REM tem bastante influência no desempenho de outras tarefas do Processamento da Língua Natural, como é o caso, dos sistemas de pergunta-resposta, e sumarização de texto ou e indexação de documentos. O REM é efetuado pela STRING com a ajuda de recursos externos, como é o caso dos léxicos e dos dicionários. Estes recursos possuem listas de Entidades Mencionadas não reconhecidas apenas pelas regras manuais da STRING. Atualmente, a atualização de cada um dos léxicos e dos dicionários é efetuada através da adição manual de novas Entidades Mencionadas. Este trabalho tem como objetivo automatizar a forma como é efetuada a atualização dos léxicos e dos dicionários, tornando-a mais rápida e mais sistemática, logo menos sujeita a erros. Para tal, decidiu-se utilizar as Caixas de Informação da Wikipédia como recurso para obter o maior número possível de Entidades Mencionadas. As Entidades obtidas são primeiro, classificadas com uma das três seguintes categorias, Pessoa, Organização e Local e, de seguida, as Entidades ainda não presentes nos recursos são adicionadas.
Entidades Mencionadas (EM), Léxicos, Dicionários de LEMAS, Wikipédia, Processamento de Língua Natural (PLN), Portugês

Junho 5, 2019, 9:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista

Universidade do Algarve

Professor Associado