Dissertação

Open-Vocabulary Remote Sensing Image Segmentation from Contrastive Language–Image Pre-Training EVALUATED

Esta tese propõe uma nova abordagem para a segmentação de imagens sem a utilização de classes predefinidas, aplicada ao domínio de observação terrestre. Em particular, utilizar o pré-treino de imagens e linguagem de forma contrastiva (CLIP), e adaptar modelos propostos recentemente, baseados em transformadores, por forma a expandir o estado-da-arte. O método proposto usa o modelo CLIP, treinado em imagens de observação terrestre, e extrai representações textuais, assim como representações da imagem. Estas representações são combinadas, utilizando um descodificador baseado em transformadores, por forma a obter máscaras de segmentação binárias. Para o treino, foi desenvolvido um método que permite expandir conjuntos de dados já existentes de segmentação de imagens aéreas, adaptando-os à tarefa em questão. As experiências realizadas demonstram bons resultados com um valor de 73.05% na métrica de mIoU. Além disso, uma análise qualitativa revelou os pontos positivos e negativos desta abordagem, incluindo descritores de posição e cor, respetivamente.
Segmentação Semântica, Imagens de Observação Terrestre, Transformadores, Processamento de Imagens, Processamento de Linguagem Natural

novembro 24, 2023, 10:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado