Dissertação

Finding Bounding Boxes from Textual Descriptions for Visual Objects EVALUATED

Este trabalho apresenta um modelo de visão e linguagem treinado para detectar um único objeto de interesse numa imagem de entrada, com base numa descrição em linguagem natural para o objeto. Uma modelo baseline foi inicialmente criado, combinando um codificador CLIP pré-treinado com um descodificador semelhante ao do modelo DETR, que gera caixas delimitadoras para o objecto de interesse de uma forma condicionada nas entradas de visão e linguagem. Extensões e melhorias em relação à baseline consideraram diferentes estratégias para combinar as representações do modelo codificador CLIP. Um novo conjunto de dados que agrega conjuntos pré-existentes para os problemas de Visual Question Answering (VQA) e Referring Expression Comprehension (REC) foi também criado para treinar e avaliar o modelo, utilizando adicionalmente uma técnica de aumento de dados, baseada no uso de um Large Language Model (LLM), para parafrasear as instâncias dos conjuntos de dados mencionados acima. Os resultados experimentais mostram que a melhor configuração do modelo pode atingir uma pontuação de 55,90 em termos de mAP50 no conjunto de dados RefCOCO para REC, e uma pontuação de 35,92 em termos de AIoU no conjunto de dados do desafio Toloka VQA.
Deteção de Objectos, Visão por Computador, Processamento de Linguagem Natural, Toloka VQA Challenge, Compreensão de Expressões de Referência.

junho 20, 2024, 11:30

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado