FenixEdu™

Dissertação

{en_GB=Automatic Annotation of Unstructured Fields in Medical Databases} {} EVALUATED

Detalhes: {pt=O aumento do uso de sistemas baseados em Registos de Saúde Eletrónicos causou um enorme crescimento da informação disponível eletronicamente, que pode ser processada por técnicas de Data Mining, levando a resultados relevantes. O resultado esperado era que essa informação se tornasse fácil de aceder, analisar e partilhar. No entanto, o texto presente nas notas clínicas está escrito em língua natural e, portanto, não estruturado e difícil de processar automaticamente. Essas notas clínicas podem conter dados pertinentes para a saúde do paciente. Nesta tese, com a ajuda de técnicas de Processamento de Linguagem Natural e de Extração de Informação, apresentamos um sistema que, dada uma nota clínica, extrai entidades relevantes desta, tais como nomes de doenças, sintomas, tratamentos, diagnósticos e fármacos, gerando informação estruturada do texto não estruturado. Para além disso, de maneira a evitar problemas de privacidade e considerando que estes campos também podem conter referências a nomes de pacientes, médicos ou outros profissionais de saúde, também apresentamos um passo de anonimização. Por fim, adicionamos um módulo que automaticamente corrige erros tipográficos destas notas clínicas. Os resultados finais mostram que o sistema, em geral, está apto para reconhecer e interpretar entidades médicas., en=The increased use of systems based on Electronic Health Records caused an enormous increment of information available electronically, which can be processed by Data Mining techniques, leading to relevant findings. The expected result was that this information becomes easy to access, analyze and share. However, the text present in the clinical notes is written in natural language, and is, thus, unstructured, and difficult to automatically process. These clinical notes might contain pertinent data for the health of the patient. In this thesis, with the help of Natural Language Processing and Information Extraction techniques, we present a system that, given a clinical note, extracts relevant named entities from it, such as names of diseases, symptoms, treatments, diagnosis and drugs, generating structured information from unstructured free text. In addition, in order to avoid privacy issues and considering that these clinical notes might contain references to names of patients, doctors or another health professionals, we also present an anonymization step. Finally, we add a module that automatically corrects typos from these medical notes. Final results show that the system, in general, is able to recognize and interpret medical entities.}
Keywords: {pt=Registos de Saúde Eletrónicos, Extração de Informação, Processamento de Linguagem Natural, dados não estruturados, dados estruturados., en=Electronic Health Record, Information Extraction, Natural Language Processing, unstructured data, structured data.}

Discussão: novembro 13, 2018, 16:30