Dissertação

Answering Natural Language Questions with Visual Information from Remote Sensing Imagery EVALUATED

Os recentes avanços em aprendizagem profunda têm-se revelado promissores na resolução de problemas difíceis na observação da Terra através de deteção remota, como o mapeamento da cobertura do solo ou a deteção de objetos. No entanto, responder a perguntas em linguagem natural sobre imagens de deteção remota continua a ser uma área pouco explorada. Neste artigo, propomos uma nova abordagem para a resposta a perguntas visuais de deteção remota (RSVQA) baseada no método de pré-treino de imagens de linguagem contrastiva (CLIP). A nossa abordagem utiliza o CLIP para gerar representações textuais e visuais, que são depois combinadas numa representação multimodal utilizando um transformer encoder. Esta representação é depois passada a uma única componente de previsão para gerar a resposta à pergunta. Além disso, para maximizar o potencial do CLIP, testámos e avaliámos diferentes vias possíveis que tiveram um impacto positivo no desempenho global do modelo RSVQA, como o pré-treino adicional da rede CLIP, extender o modelo de geração de representações textuais, e uma nova abordagem para gerar representações visuais mais ricas com o CLIP. Os resultados experimentais mostram que a nossa abordagem se compara de forma competitiva com o método estado-da-arte anterior em vários conjuntos de dados.
Transformers, Computer Vision, Visual Question Answering, Remote Sensing Imagery

junho 29, 2023, 13:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

Jacinto Paulo Simões Estima

Universidade Coimbra

Professor Auxiliar