Dissertação

{en_GB=ConnectionLens: Entity and Relationship Extraction from French textual data sources} {} EVALUATED

{pt=Como resultado da grande quantidade de dados disponíveis digitalmente hoje em dia, os jornalistas estão a mudar o seu foco para processamento e visualização de dados, numa tarefa denominada jornalismo de dados. No jornalismo de investigação, os dados disponíveis são usados para descobrir conexões entre entidades e analisar a natureza das mesmas. ConnectionLens é um protótipo de software que tenta resolver os problemas do jornalismo de investigação de ter dados de diferentes fontes e com diferentes formatos, permitindo também efetuar queries baseadas em palavras-chave para encontrar conexões. Para obter entidades e conexões em fontes de dados textuais é necessário realizar Reconhecimento de Entidades Mencionadas (REM) e Extração de Relações (ER). Nós propomos o desenvolvimento de uma solução para REM e ER para textos de notícias em Francês que possa ser integrada no ConnectionLens. O nosso objetivo é adaptar e usar ferramentas, mais especificamente bibliotecas, tanto para REM e RE, para criar modelos de aprendizagem automática capazes de extrair entidades mencionadas e relações, respetivamente, de textos franceses. Adicionalmente, efetuar uma avaliação extensiva desses modelos, usando precisão, abrangência e medida F1 para REM, e curvas de precisão-abrangência, área sob a curva (AUC), micro-F1 e Precisão@N para ER. Finalmente, selecionar o modelo com melhor desempenho para cada tarefa, para serem integrados no ConnectionLens. O modelo com melhor desempenho para REM obteve uma medida F1 global de 73.31%, e o modelo com melhor desempenho para ER obteve uma AUC e uma micro-F1 de 97.10% e 91.78%, respetivamente., en=As a result of the large amounts of data digitally available nowadays, journalists are turning their attention to data processing and visualization, a task called data journalism. In investigative journalism, the available data is used to find connections between entities and analyze their nature. ConnectionLens is a software prototype that addresses the investigative journalism's issues of having data from different sources and different formats, while allowing keyword-based queries to find connections. To obtain the entities and connections in textual data sources it is necessary to perform Named-Entity Recognition (NER) and Relationship Extraction (RE). We propose to develop a solution for NER and RE for French news texts that can be incorporated in ConnectionLens. Our goal is to adapt and make use of tools, more specifically, third-party libraries, for both NER and RE, to create machine learning models capable of extracting named-entities and relationships, respectively, from French texts. In addition, to provide a comprehensive evaluation of these models using precision, recall and F1-score for NER, and precision-recall curves, area under the curve (AUC), micro-F1 and Precision@N for RE. Finally, to select the best performing model for each task, to be integrated in ConnectionLens. The best performing model for NER achieved an overall F1-score of 73.31%. And, the best performing model for RE achieved an AUC and a micro-F1 of 97.10% and 91.78%, respectively.}
{pt=Extração de Informação, Processamento de Língua Natural, Reconhecimento de Entidades Mencionadas, Extração de Relações, Aprendizagem Profunda, Supervisão Distante, en=Information Extraction, Natural Language Processing, Named-Entity Recognition, Relationship Extraction, Deep Learning, Distant Supervision}

Outubro 16, 2020, 14:30

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Ioana Gabriela Manolescu-Goujot

INRIA Saclay - Ecole Polytechnique

Investigador Coordenador