Dissertação

{en_GB=Applying Deep Learning to Medical Images} {} EVALUATED

{pt=Redes convolucionais profundas foram recentemente adotadas pela comunidade científica como uma solução competitiva para tarefas de reconhecimento visual. Entre estas redes, as FCNN têm ganho popularidade por obterem bons resultados ao abandonarem as camadas finais totalmente conectadas das CNN clássicas. A FCNN original, com utilização do salto entre camadas, foi capaz de atingir bons resultados para datasets grandes. Esta arquitetura inspirou a U-Net, que apresenta um melhor desempenho sendo, simultaneamente, mais rápida e computacionalmente mais leve. Estas estão projetadas para trabalhar com imagens 2D. No entanto a maioria das imagens médicas, tais como ultrassons e ressonâncias magnéticas, são 3D. Surge então a V-Net, que consiste numa rede neuronal totalmente convolucional desenhada para operar com imagens 3D, a qual introduz uma nova função objetivo, remove camadas de filtragem por agregação e efetua propagação residual. V-Nets apresentam bons resultados em diversas tarefas de reconhecimento visual, exigindo uma fração do tempo de processamento para atingir os mesmos resultados que os seus competidores. Neste trabalho são implementadas variantes de U-Net e V-Net para comprovar o bom desempenho destas arquiteturas em tarefas de segmentação visual de imagens do foro médico e para avaliar a forma através da qual a função objetivo, a propagação de resíduos, as funções de ativação e o método de otimização afetam o desempenho. Um objetivo secundário do presente trabalho é o de estabelecer uma relação entre a base teórica e uma implementação através da análise da API Tensorflow da Google, desenhada para aprendizagem automática, com ênfase em computação distribuída., en=Deep convolutional networks have recently been embraced by the academic community as a competitive solution for visual recognition tasks. Among these networks, the fully convolutional neural networks have been gaining traction as they drop the traditional fully-connected layers of CNNs in favor of more convolutional layers. The original fully convolutional network, using layer skipping, was capable of achieving great results when provided enough samples. This architecture was extended into the U-Net which outperforms the FCNN, while being both faster and less computationally cumbersome than it. Both architectures are designed to work with 2D input images. However most medical images, such as ultrasounds and MRIs, are 3D. Built upon the underlying principles beyond the U-Net and the FCNN, the V-Net was created. It is a volumetric FCNN which introduces a new objective function, discards pooling layers in favor of more convolutional layers and performs residual propagation. V-Nets have achieved a good performance across all visual recognition tasks, being comparable to the state-of-the-art solutions while requiring a fraction of the processing time. In this thesis several variants of U-Net and V-Net are implemented to, firstly, attest to their good performance on visual segmentation tasks of medical data, and, secondly, to assess how the objective function, kernel’s receptive fields, residual propagation, activation functions and optimization method impact the model’s performance. A secondary objective of this thesis is to bridge the gap between theoretical knowledge and practical implementations by analyzing Google’s Tensorflow API, which was designed specifically for distributed computing based machine learning.}
{pt=FCNN, U-Net, V-Net, Aprendizagem Profunda, Segmentação de Imagem, Tensorflow, en=FCNN, U-Net, V-Net, Deep Learning, Image Segmentation, Tensorflow}

Julho 12, 2019, 9:0

Orientação

ORIENTADOR

Mário Alexandre Teles de Figueiredo

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Catedrático

ORIENTADOR

Arlindo Manuel Limede de Oliveira

Departamento de Engenharia Informática (DEI)

Professor Catedrático