Dissertação

{en_GB=Video Compression Using (End-to-End) Deep Learning} {} EVALUATED

{pt=A aprendizagem profunda (AP, deep learning) está a ter um impacto revolucionário no processamento de imagem, com as abordagens baseadas em AP sendo hoje consideradas o estado da arte em muitas tarefas, incluindo a compressão de imagens. No entanto, a compressão de vídeo tem resistido, até agora, à revolução da AP. Foi levada a cabo uma investigação inicial sobre compressão de imagens baseada em AP, devido à falta de resultados de investigação disponíveis em compressão de vídeo, e quatro arquiteturas de referência foram implementadas. Usando este trabalho como ponto de partida, esta tese propõe o que o autor acredita ser a primeira abordagem para aprendizagem extremo-a-extremo (end-to-end) de uma rede única para compressão de vídeo. O problema é abordado evitando estimativas/previsões explícitas de movimento, formalizando-o como problema de otimização ritmo-distorção (rate-distortion) de um auto-codificador (autoencoder) espacio-temporal, isto é, aprendendo em conjunto uma transformação de projeção sobre um espaço latente e uma transformação de síntese para compressão de vídeo. O quantizador usa um esquema de arredondamento, relaxado durante o treino da arquitetura, e uma técnica de estimação de entropia para impor um limite na informação utilizada para compressão, inspirado por avanços recentes em compressão de imagens. A rede proposta para compressão de vídeo é comparada com os codecs padrão amplamente utilizados e uma base de referência usando compressão trama a trama. Os resultados da rede mostram melhor desempenho do que a base de referência e o codec MPEG-4 Part 2, sendo competitivo com H.264/AVC e H.265/HEVC para débitos binários baixos., en=Deep learning (DL) is having a revolutionary impact in image processing, with DL-based approaches now holding the state of the art in many tasks, including image compression. However, video compression has so far resisted the DL revolution, with scarce published research. An initial investigation in DL-based image compression was done, due to the lack of available research in video compression, and four landmark architectures were implemented. By building upon this preliminary work, this dissertation proposes what the author believes to be the first approach to end-to-end learning of a single network for video compression. The problem is tackled in a novel way, avoiding explicit motion estimation/prediction, by formalizing it as the rate-distortion optimization of a single spatio-temporal autoencoder, i.e., by jointly learning a latent-space projection transform and a synthesis transform for low-bitrate video compression. The quantizer uses a rounding scheme, which is relaxed during training, and an entropy estimation technique to enforce an information bottleneck, inspired by recent advances in image compression. The obtained video compression network is compared with standard widely-used codecs, and a naive frame-by-frame compression baseline. It shows better performance than the baseline and the MPEG-4 Part 2 codec, being competitive with H.264/AVC and H.265/HEVC for low bitrates. }
{pt=Aprendizagem profunda, compressão de imagem, compressão de video, otimizão ritmo-distorção, auto-codificadores convolucionais, aprendizagem extremo-a-extremo, en=Deep learning, image compression, video compression, rate-distortion optimization, convolutional autoencoders, end-to-end learning}

Novembro 12, 2018, 18:30

Orientação

ORIENTADOR

Pedro Filipe Zeferino Tomás

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar

ORIENTADOR

Helena Isabel Aidos Lopes

FCUL- Faculdade de Ciências da Universidade de Lisboa

Professor Auxiliar