Dissertação

{en_GB=MedicineAsk: An intelligent search facility for information about medicines} {} EVALUATED

{pt=O acesso rápido e fácil à informação é muito importante no campo de medicina. As interfaces em Língua Natural são uma das maneiras de aceder a este tipo de informação. O MedicineAsk é um protótipo de software que procura responder a perguntas em Português sobre medicamentos e substâncias activas. Foi concebido para ser fácil de usar tanto por pessoal médico como utilizadores comuns. As respostas às perguntas são obtidas através de informação previamente extraída do Prontuário Terapêutico do Infarmed e armazenada numa base de dados relacional. Esta tese descreve a extensão do módulo de processamento de Língua Natural do MedicineAsk. Focamo-nos em aumentar a quantidade de perguntas de utilizadores que é possível responder. Em primeiro lugar, adicionámos técnicas de aprendizagem automática para classificação de perguntas usando \textit{Support Vector Machines}. Em segundo lugar, foi implementado suporte para perguntas que incluem anáfora e elipses. Finalmente melhorámos o detector de sinónimos implementado na versão anterior do MedicineAsk. Realizámos uma validação sobre cada nova adição ao MedicinesAsk e identificámos as limitações encontradas, sugerindo algumas soluções. A versão melhorada do Processador de Língua Natural do MedicineAsk respondeu a 17\% mais perguntas que a versão anterior do MedicineAsk, e ainda 5\% mais perguntas ao tratar de anáforas. Esta tese relata também o estado da arte de sistemas de pergunta-resposta no domínio médico, de outros tipos de aplicações web na área de medicina e de sistemas de recuperação de informação médica., en=Obtaining information quickly and easily is very important in the medical field. Natural Language Interfaces are one way to access this kind of information. MedicineAsk is a prototype that seeks to answer Portuguese Natural Language questions about medicines and active substances. It was designed to be easy to use so that questions may be posed by both medical staff and common users. Questions are answered through information previously extracted from the Infarmed's Therapeutic Handbook and stored in a relational database. This thesis describes the extension of the Natural Language processing module of MedicineAsk. We focused on increasing the quantity of answerable user questions. First, we added machine learning techniques for question classification by using Support Vector Machines. Second, support for questions including anaphora and ellipsis has been implemented. Third, we extended the synonym detection feature implemented in the previous version of MedicineAsk. We performed a validation over each of the new MedicineAsk features. Our improved MedicineAsk NLI answered 17\% more questions than the previous version of MedicineAsk, with a further 5\% increase when handling anaphora. We identified current limitations of MedicineAsk and suggested some solutions. This document also shows the state of the art on medical domain question answering systems, on other types of web-based systems in the area of medicine and on information retrieval systems for medical information.}
{pt=Língua Natural, Medicina, Support Vector Machines, Resolução de Anáforas, en=Natural Language, Medicine, Support Vector Machines, Anaphora Resolution}

novembro 5, 2014, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar