Dissertação

{en_GB=Evaluation of the impact of deep-learning based Apollo in improving neuroradiological workflows } {} EVALUATED

{pt=Os métodos de Aprendizagem Profunda (DL) têm ganho uma inegável relevância em radiologia, pelo papel preponderante que desempenham na segmentação e classificação de patologias. O seu potencial deve ser contrabalançado pelos riscos de classificações erradas em dados não vistos. Avaliar a robustez de um algoritmo com um conjunto adequado de métricas é um passo crucial que é tendencialmente ignorado na maior parte dos trabalhos. Nesta tese, propomos um método de avaliação abrangente que aborda estas limitações e avalia conjuntamente o desempenho de modelos DL ao nível de imagem (classificação) e lesão (segmentação). Para além de analizar o comportamento para uma dada tarefa, o método inclui uma medida de robustez ao 1) avaliar o impacto de parâmetros de aquisição no desempenho e 2) avaliar num conjunto de dados externo. A análise experimental é realizada para Apollo e nnU-Net treinadas no mesmo conjunto de dados. Os resultados mostram que algoritmos são fortemente prejudicados pela existência de um enviesamento involuntário de dados. Obtemos desempenhos inferiores para patologias sub-representadas no conjunto de treino e verificamos que os algoritmos têm dificuldade em funcionar com dados adquiridos com uma sequência ou orientação diferente. Inversamente, são aprendidas características mais discriminatórias para classes e tipos de sequência ou orientações prevalecentes. A análise experimental também sugere que a robustez pode ser melhorada através da identificação de decisões chave quanto à formulação do algoritmo. Ao sensibilizar para a importância de validações externas e fornecer alternativas aos métodos de avaliação actuais, pretendemos agilizar a integração de tecnologias DL em ambientes hospitalares. , en=Deep Learning (DL) methods for pathology segmentation and classification have gained undeniable relevance in the radiology department. Their promising potential must be balanced with the risks of misclassifications in unseen data. Evaluating robustness with an adequate set of metrics is a crucial step that is usually done suboptimal in the current practices. In this thesis, we propose a comprehensive evaluation framework that specifically addresses these limitations and jointly assesses the performance of DL models at an image (classification) and lesion(segmentation) levels. Besides analyzing network behaviours across tasks, our method gives a measure of robustness by 1) evaluating the impact of acquisition parameters on performance and 2) applying the framework to an external dataset. The experimental analysis is conducted for two DL solutions, Apollo and nnU-Net, trained on the same data. Results show that algorithms are heavily hampered by unintended data bias. In particular, we obtain lower performances for poorly represented pathologies in the training set and verify that the algorithms struggle to predict from out-of-distribution data, i.e. acquired with a different sequence or in a different direction. Conversely, more discriminative features are learnt for predominant classes and on prevalent sequence types or orientations. Our experiments also suggest that robustness can be improved by identifying key design decisions in the algorithm pipeline formulation. By raising awareness on the importance of external validations and by providing alternatives to the current evaluation frameworks, we give a further step towards the seamless integration of DL technologies in medical settings.}
{pt=Aprendizagem Profunda (DL), Robustez, Enviesamento Involuntário dos Dados, Alterações na Distribuição dos Dados, Imagem por Ressonância Magnética, en=Deep Learning (DL), Robustness, Unintended Data Bias, Distributional Shifts, Magnetic Resonance Imaging}

Julho 13, 2021, 14:0

Orientação

ORIENTADOR

Ana Catarina Fidalgo Barata

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Colaborador Docente

ORIENTADOR

Akshay Pai

Cerebriu

Doctor