FenixEdu™

Dissertação

{en_GB=Adapting State-of-the-Art Named Entity Recognition and Disambiguation Frameworks for Handling Clinical Text} {} EVALUATED

Detalhes: {pt=A tarefa de Reconhecimento e Desambiguação de Entidades~(RDE) preocupa-se com o reconhecimento de referências a entidades em documentos de texto (e.g., reconhecimento de nomes de doenças em notas clínicas e em texto livre associado a registos de saúde eletrónicos) e, de seguida, com a associação inequívoca das entidades reconhecidas para com entradas numa base de conhecimento (i.e., associar as doenças reconhecidas a entradas do {\it metathesaurus} do UMLS). A tarefa de RDE em documentos clínicos é especialmente desafiante, devido a problemas como o uso frequente de referências descontínuas a entidades, o uso de abreviaturas específicas ao domínio clínico, ou a insuficiência de informação contextual. Nesta dissertação, descreve-mos adaptações simples a sistemas de reconhecimento e desambiguação de entidades, desenvolvidos para processar documentos jornalísticos, de forma a poderem manipular textos do domínio clínico. Reportamos experiências feitas com dados bem conhecidos na área (e.g., com dados de uma competição prévia na conferência SemEval, com o seu foco em análise de texto clínico), mostrando que os sistemas de RDE já existentes podem ser facilmente modificados de maneira a terem alto desempenho no domínio clínico. , en=The Named Entity Recognition and Disambiguation (NERD) task concerns with recognizing entity mentions in textual documents (e.g., recognizing names for diseases and disorders in clinical notes and in the free-text contents associated to electronic health records), and then associating the recognized entities to unambiguous entries in a given knowledge base (i.e., associate the recognized diseases to specific entries in the UMLS meta-thesaurus). NERD over clinical documents is particularly challenging due to issues such as the frequent usage of discontinuous entity mentions, the use of domain-specific abbreviations, or insufficient contextual information. In this dissertation, we describe simple adaptations over existing state-of-the-art entity linking systems, developed for processing newswire documents, in order to adequately handle clinical text. We report on experiments with a well-known dataset in the area (e.g. with data from a previous SemEval challenge on the analysis of clinical text), showing that existing NERD systems can easily be adapted to perform well on this domain. }
Keywords: {pt=Aprendizagem Automática, Reconhecimento de Entidade, Desambiguação de Entidades, Conditional Random Fields, Terminologias do Domínio Médico, en=Clinical Text Mining, Named Entity Recognition, Named Entity Disambiguation, Machine Learning, Conditional Random Fields, Medical Thesauri}

Discussão: dezembro 11, 2015, 14:0