FenixEdu™

Dissertação

{pt_PT=Atualização Semi-Automática dos Recursos da STRING} {} EVALUATED

Detalhes: {pt=O Reconhecimento de Entidades Mencionadas (REM) consiste na identificação e classificação de certos elementos do texto de acordo com uma tipologia de entidades, por exemplo, nomes de pessoas, de organizações, de locais, de eventos ou datas. O REM é uma tarefa muito importante para o Processamento da Língua Natural pois permite relacionar as unidades elementares de um texto, melhorando a sua compreensão. O REM tem bastante influência no desempenho de outras tarefas do Processamento da Língua Natural, como é o caso, dos sistemas de pergunta-resposta, e sumarização de texto ou e indexação de documentos. O REM é efetuado pela STRING com a ajuda de recursos externos, como é o caso dos léxicos e dos dicionários. Estes recursos possuem listas de Entidades Mencionadas não reconhecidas apenas pelas regras manuais da STRING. Atualmente, a atualização de cada um dos léxicos e dos dicionários é efetuada através da adição manual de novas Entidades Mencionadas. Este trabalho tem como objetivo automatizar a forma como é efetuada a atualização dos léxicos e dos dicionários, tornando-a mais rápida e mais sistemática, logo menos sujeita a erros. Para tal, decidiu-se utilizar as Caixas de Informação da Wikipédia como recurso para obter o maior número possível de Entidades Mencionadas. As Entidades obtidas são primeiro, classificadas com uma das três seguintes categorias, Pessoa, Organização e Local e, de seguida, as Entidades ainda não presentes nos recursos são adicionadas. , en=The Named Entities Recognition (NER) consists in identifying and classifying certain elements of the text according to a typology of entities, for example, names of people, organizations, places, events or dates. The NER is a very important task for the Natural Language Processing because it allows to connect the various elementary units of a text, improving, that way, its understanding. The NER influences immensely the performance of other tasks of Natural Language Processing, such as question-answer systems, text summarization and indexing of documents. In this case, the NER is performed by the STatistical and Rule-based Natural lanGuage processing chain with the help of some external resources such as lexicons and dictionaries. The content of these resources is lists of Named Entities that can not be recognized only by the manual rules of the STRING. Nowadays, the update of each lexicon and dictionary is performed by manually adding, to their content, new Named Entities. This work aims to automate the way in which the lexicons and dictionaries are updated. Making it faster and more systematic, thus less subject to errors. To do so, it was decided to use Wikipedia's Information Boxes content to obtain as many Entities as possible. The Entities obtained are first, classified as one of the following three categories, Person, Organization and Place, and then Entities not yet present in the resources are added.}
Keywords: {pt=Entidades Mencionadas (EM), Léxicos, Dicionários de LEMAS, Wikipédia, Processamento de Língua Natural (PLN), Portugês, en=Named Entities, Lexicons, LEMAS' Dictionaries, Wikipedia, Natural Language Processing (NLP), Portuguese}

Discussão: junho 5, 2019, 9:0