Dissertação

Deep Learning for Medical Visual Question Answering EVALUATED

Modelos para a tarefa de responder a perguntas sobre imagens (\textit{Visual Question Answering}, em inglês) no domínio médico devem conseguir responder a perguntas relevantes com base nos conteúdos das imagens médicas. Um estudo recente na área propôs MMBERT~\citep{9434063}, um modelo codificador com dados multimodais que combina uma ResNet para representar as imagens em múltiplas resoluções, juntando um codificador Transformer. Pre-treinando o modelo sobre o dataset Radiology Objects in COntext (ROCO), consistindo de imagens+legendas, com um objectivo de mascaramento de linguagem que também considera os conteúdos da imagem na tentativa de reconstrução dos tokens mascarados, os autores conseguiram atingir resultados estado-de-arte no dataset VQA-MED de questões sobre imagens de radiologia, usado no ImageCLEF 2019. A partir do código disponibilizado pelos autores, primeiramente tentámos reproduzir os resultados do MMBERT, e posteriormente avançamos em diversas direções: (a) um codificador de imagem mais forte com base na EfficientNetV2; (b) um codificador multi-modal com base na arquitetura RealFormer; (c) extender a tarefa de pre-treino com um objetivo de contraste, e (d) uma função de custo recente para afinar o modelo para a tarefa de VQA, que especificamente considera um desequilíbrio de classes. Foram encontradas algumas dificuldades em reproduzir exatamente os resultados do MMBERT, e os hiper-parâmetros pré-definidos no código original resultaram em resulados inferiores. A partir dos resultados base da nossa reprodução do MMBERT, mostramos que as extensões ao modelo propostas resultam em melhorias. O código usado pode ser consultado em https://github.com/DannielSilva/MMBERT.
Resposta a Perguntas a Conteúdos Visuais, Transformadores; Processamento de Imagens, Processamento de Linguagem Natural, Informática Biomédica

novembro 26, 2021, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

João Miguel da Costa Magalhães

FCT/UNL - Universidade NOVA de Lisboa

Professor Associado