FenixEdu™

Dissertação

{en_GB=Deep Learning for the Automatic Generation of Medical Imaging Reports} {} EVALUATED

Detalhes: {pt=Neste trabalho é abordada a tarefa de geração automática de relatórios médicos para imagens de raios-X ao tórax. Nomeadamente, são exploradas diferentes arquitecturas encoder-decoder. A principal contribuição consiste em perceber o impacto de substituir a camada final softmax do decoder. Ao invés de se calcular a probabilidade de gerar cada uma das palavras do vocabulário, é explorada a possibilidade de se utilizar um decoder que gere vectores contínuous contidos no espaço dos word embeddings que representam as palavras do relatório médico. Esta técnica permite também a criação de funções de perda que considerem diferentes componentes, além da habitual componente ao nível das palavras. Desta forma, são quantificados os efeitos da utilização de uma função de perda que opere também ao nível da frase, bem como uma função que force representações dos relatórios gerados a estarem relacionadas com as representações visuais extraidas do encoder. São exploradas também diferentes técnicas de pré-treino do encoder. Os resultados mostram que a tarefa de geração de longos parágrafos que diagnosticam correctamente o paciente é mais complexa do que o esperado, especialmente para o dataset usado, o MIMIC-CXR. Os modelos contínuos têm dificuldade em acompanhar o desempenho dos modelos baseados em decoding com a camada de softmax, independentemente da função de perda utilizada para treinar os modelos contínuos. De todos os métodos de pré-treino implementados, utilizar um pré-treino na tarefa de classificação de predição de doenças nas imagens permite que os modelos contínuos obtenham melhores métricas a nível de linguagem. , en=This body of work addresses the task of automatically generating grammaticarly correct and clinically accurate medical reports for chest X-ray images. Namely, it explores different possible encoder-decoder architectures. The main objective focused on understanding the impact of replacing the standard final softmax layer in the decoder. Rather than outputting the probability of each word in the vocabulary, we choose to implement a decoder that generates continuous vectors that lie in the same space as the word embeddings used to encode the words in the medical reports. This method also allows the creation of loss functions that can operate with different components, besides word-level errors. Therefore, we also quantify the effects of training the continuous model with losses that take into account sentence-level errors, as well as losses that force the decoder to generate reports that are similar to the linearly projected visual features extracted from the encoder. We also report the effect of different encoder pre-training techniques on disease label classification and report generation. The results show that the task of generating long paragraphs that accurately describe a patient diagnosis is more complex than initially thought, especially in the case of the dataset used, MIMIC-CXR. Our experiments put continuous models at a level below that of softmax models, independently of the loss used during the training process. Of all pre-training methods used, pre-training the encoder for the label classification task proved to achieve slighty higher scores in clinical accuracy for continuous models. }
Keywords: {pt=Aprendizagem com Redes Profundas, Processamento de Língua Natural, Visão Computacional, Anotação de Imagens, en=Deep Learning, Natural Language Processing, Image captioning, Computer Vision}

Discussão: novembro 12, 2020, 16:30