Dissertação
Extraction and Classification of Named Entities EVALUATED
O Reconhecimento de Entidades Mencionadas (REM) consiste na delimitação precisa e na correcta classificação de expressões linguísticas de natureza variada e com uma forte componente referencial, tais como os nomes de pessoas, locais, organizações e quantidades, entre outras. É uma tarefa-chave na área interdisciplinar do Processamento de Língua Natural (PLN), que mobiliza, por um lado, diversas competências de Engenharia de Sistemas e Computação, e, por outro lado, recorre a conhecimentos de vários ramos da Linguística, e que pode ser enquadrada no domínio mais vasto da Recuperação/Extracção de Informação. A tarefa de REM tem um importantíssimo papel no desempenho de diferentes módulos de sistemas de PLN (por exemplo, no processamento sintáctico e semântico) mas também como um dos componentes de diversas aplicações do processamento da linguagem (reconhecimento da fala ou sumarização automática). Este estudo teve como objectivo central melhorar a performance do módulo de REM do sistema de PLN desenvolvido pelo L2F/INESC-ID Lisboa, relativamente ao desempenho que este teve na campanha de avaliação conjunta do Segundo HAREM (2008), em particular para as categorias HUMANO, LOCAL e VALOR. Para tal, procedeu-se ao estudo comparativo dos sistemas de REM actualmente existentes para o Português, tendo sido proposto um novo conjunto de directivas de delimitação e classificação, para substituir as da campanha de 2008. Foram introduzidas várias melhorias em diferentes componentes da cadeia de processamento, em particular no analisador sintáctico XIP, responsável a jusante da cadeia pela extracção das entidades mencionadas. Finalmente, o desempenho do sistema foi avaliado, verificando-se uma melhoria significativa dos resultados.
novembro 12, 2010, 15:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
CO-ORIENTADOR
Jorge Manuel Evangelista Baptista
Faculdade de Ciências Humanas e Sociais - Universidade do Algarve