Dissertação
Biomedical Question Answering with Deep Learning EVALUATED
A automação de sistemas pergunta-resposta (QA) é uma tarefa de referência em Processamento de Linguagem Natural, que tem permitido a evolução de motores de busca que facilitam os nossos trabalhos e vidas. Na Biomedicina, dada a sua especificidade, o desempenho de sistemas QA ainda está longe de ser ideal. O desafio BioASQ é uma competição mundial, fundada pela UE, que estimula o desenvolvimento de sistemas QA biomédicos. Esta tese detalha o desenvolvimento do BiMeQA, um sistema de QA que retorna respostas exactas a perguntas: sim/não, factóide e lista. O BiMeQA usa o BioBERT, um modelo de aprendizagem profunda pré-treinado, como base e aplica Transferência de Conhecimento Sequencial em corpora de Inferência de Língua Natural (MultiNLI) e de QA extractivo (SQuAD). O sistema propõe novas técnicas de pós-processamento para obter predições: a média de pontuações para perguntas sim/não; a aplicação da função Softmax numa fase diferente do pipeline para factóides; e o uso do sistema de eleições Voto Único Transferível para eleger predições para listas. Estas estratégias subiram os resultados quando comparadas com métodos tradicionais. A autora argumenta que estas estratégias tornam os níveis de confiança das respostas mais significativos. O BiMeQA participou na 9ª edição do BioASQ Tarefa B - Fase B, tendo ficado em 1º lugar num dos 5 lotes de teste. A média dos resultados obtidos nos lotes, foi: 0.798 MacroF1 para sim/não, 0.478 MRR para factóides, e 0.466 F1 para listas. O código do sistema encontra-se num repositório de acesso aberto.
setembro 13, 2021, 14:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Maria Luísa Torres Ribeiro Marques da Silva Coheur
Departamento de Engenharia Informática (DEI)
Professor Associado
ORIENTADOR