Dissertação
Open-Vocabulary Remote Sensing Image Segmentation from Contrastive Language–Image Pre-Training EVALUATED
Esta tese propõe uma nova abordagem para a segmentação de imagens sem a utilização de classes predefinidas, aplicada ao domínio de observação terrestre. Em particular, utilizar o pré-treino de imagens e linguagem de forma contrastiva (CLIP), e adaptar modelos propostos recentemente, baseados em transformadores, por forma a expandir o estado-da-arte. O método proposto usa o modelo CLIP, treinado em imagens de observação terrestre, e extrai representações textuais, assim como representações da imagem. Estas representações são combinadas, utilizando um descodificador baseado em transformadores, por forma a obter máscaras de segmentação binárias. Para o treino, foi desenvolvido um método que permite expandir conjuntos de dados já existentes de segmentação de imagens aéreas, adaptando-os à tarefa em questão. As experiências realizadas demonstram bons resultados com um valor de 73.05% na métrica de mIoU. Além disso, uma análise qualitativa revelou os pontos positivos e negativos desta abordagem, incluindo descritores de posição e cor, respetivamente.
novembro 24, 2023, 10:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Electrotécnica e de Computadores (DEEC)
Professor Associado