Dissertação

{en_GB=DeepString - Syntax Deep Explorer : Integrating multi-corpora support into a corpus analysis tool} {} EVALUATED

{pt=Com o avanço da tecnologia, os linguistas passaram a dispor de diversas ferramentas para os ajudar nos seus estudos, entre as quais, ferramentas de análise de corpora. Estas ferramentas ajudam a determinar melhor como são usadas certas palavras em contexto, calculando diversas medidas de associação entre palavras coocorrentes e apresentando esses resultados sob a forma de um perfil distribucional. Uma destas ferramentas é o Syntax Deep Explorer, que recebe como input um corpus previamente processado pela STRING e permite realizar diversas pesquisas com a informação sintática com que o corpus foi anotado. A STRING é uma cadeia de Processamento de Linguagem Natural desenvolvida pelo Laboratório de Tecnologias da Língua Humana no INESC-ID que realiza todas as tarefas básicas de processamento de texto em língua natural, incluindo a análise sintática e a extração das relações de dependência sintática entre constituintes. Este projeto engloba algumas melhorias e novas funcionalidades implementadas no Syntax Deep Explorer. As principais funcionalidades que foram desenvolvidas são: a comparação entre os perfis distribucionais de 2 palavras no mesmo corpus e a comparação entre perfis da mesma palavra em 2 corpora distintos; a apresentação de exemplos, com destaque das palavras-alvo, bem como a melhoria do formato de apresentação dos perfis lexicais; e o suporte multicorpora. Dois novos corpora foram constituídos para suportar estas novas funcionalidades: um corpus de textos jornalísticos desportivos (Desportivo) e outro com as atas de sessões da Assembleia da República (Parlamento)., en=With the evolution of technology, linguists now have numerous tools to aid them in their studies, including, several corpora analysis tools. These tools help in determining how words are used in context within a corpus. Besides concordances, some tools can also automatically calculate several association measures between co-occurrent words and display these results in the form of a distributional profile. One such tool is the Syntax Deep Explorer. This tool receives as input a corpus that has been previously processed by STRING and allows the user to execute several searches based on the syntactic information annotated on the corpus. STRING is a Natural Language Processing Chain for the Portuguese language developed by the Human Languages Technologies Laboratory at INESC-ID Lisboa. It performs all the basic tasks in natural language processing, including, syntactic analysis and the extraction of syntactic dependencies between constituents (dependency parsing). This project covers some improvements and some new features implemented to Syntax Deep Explorer: (i) the comparison between the distributional profiles of 2 words within the same corpus and (ii) the comparison of the distributional profiles of the same word in 2 distinct corpora; (iii) the presentation of examples, with the highlighting of target words, as well as, the improvement of the format in which distributional profiles are presented; and multi-corpora support. Two new corpora were constituted to support these new functionalities: a corpus from sports newspapers texts (Desportivo) and another with the minutes from the Portuguese Parliament (Parlamento). }
{pt=Processamento de Língua Natural, Coocorrência, Medidas de associação, STRING, Linguística de corpus, en=Natural Language Processing, Co-occurrence, Association measures, STRING, Corpus linguistics}

junho 18, 2020, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Nuno João Neves Mamede

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Jorge Manuel Evangelista Baptista

Universidade do Algarve - UAlg

Professor Associado