Dissertação

{pt_PT=Syntax Deep Explorer} {} EVALUATED

{pt=A análise de padrões de co-ocorrência entre as palavras permite compreender melhor as diferenças de uso (e significado) que estão associadas às diferentes relações em que uma dada palavra participa. O objetivo deste projeto é desenvolver uma ferramenta que, com base na cadeia de processamento de língua natural (PLN) STRING permita obter o acesso aos dados de co-ocorrência obtidos a partir de textos em português. Atualmente, já existem várias ferramentas (DeepDict, Sketch Engine e Wortschatz) que permitem obter, para corpora em português, informação sobre os padrões de co-ocorrência de uma palavra, baseando-se em diferentes sistemas de PLN, adotando diferentes medidas de associação. Entre estas, encontram-se a PMI, o Dice, o Log-likelihood Ratio, ou diferentes adoções destas medidas. A solução apresentada é composta pela extração das co-ocorrências e uma interface Web. A extração ocorre a partir de um corpus processado pela cadeia, que encontra e armazena as co-ocorrências numa base de dados, sendo posteriormente calculadas as diferentes medidas de associação. A aplicação Web fornece aos utilizadores uma interface que permite explorar esses padrões de co-ocorrência. A solução é avaliada com base no tempo consumido para extrair as co-ocorrências do corpus CETEMPúblico, espaço ocupado, organização da base de dados e o tempo de resposta da interface. O projeto desenvolvido permite aceder rapidamente às co-ocorrências resultantes de corpora processado pela STRING, aproveitando os ricos recursos lexicais da cadeia bem como a sua sofisticada análise sintática e semântica, para produzir resultados que os sistemas referidos não permitem., en=The analysis of the co-occurrence patterns between words allows due to better understand the use (and meaning) of words its most straightforward application are lexicography and linguist description in general. The aim of this project is to develop a tool that, based on the STRING natural language processing (NLP) chain, allows one to explore co-occurrence data obtained from Portuguese texts. Nowadays, there are some tools like DeepDict, SketchEngine and Wortschatz that allow to get the information on the co-occurrence patterns of a word in Portuguese corpora. These tools are based on different NLP systems and adopt different measures of association. The association measures used are the PMI, the Dice coefficient, the Log-likelihood ratio, or different variants of these measures. The presented solution consists in the extraction of co-occurrences and a web interface. The extraction occurs from a processed corpus by STRING, that finds and stores the co-occurrences in a database. Then, for each co-occurrence stored are calculated the different association measures. The web application provides to users an interface that allows to exploit these co-occurrence patterns. The solution is evaluated based on consumed time to extract the co-occurrences from CETEMPúblico corpus, the space and organization of the database and the response time of web interface. The developed project allows the quick access to collected co-occurrences in corpora produced by STRING, taking advantage of the rich lexical resources in the chain, as well as its sophisticated syntactic and semantic analysis in order to produce results that the above systems don't allow.}
{pt=Processamento de Língua Natural (PLN), Interface gráfica, Co-ocorrência, Colocação, Medidas de associação, STRING, en=Natural Language Processing (NLP), Graphic interface, Co-occurrence, Colocation, Association measures, STRING}

novembro 11, 2015, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

Faculdade de Ciências Humanas e Sociais, Universidade do Algarve

Professor Associado