Dissertação

Retrieval-Augmented Text-Only Training for Image Captioning EVALUATED

A geração de legendas de imagens tem atraído uma atenção notável dos campos de processamento de linguagem natural e visão computacional. Com o objetivo de reduzir a dependência de dados curados, vários estudos têm explorado a geração de legendas de imagens sem depender de pares de imagem e texto anotados por humanos, embora os métodos existentes ainda sejam superados por abordagens totalmente supervisionadas. Este artigo propõe TTLLCap, ou seja, um método de treino aprimorado que apenas usa texto para a descrição de imagens com base no uso de um modelo de linguagem pré-treinado com informação derivada das representações CLIP das entradas. Especificamente, o modelo combina (a) exemplos de legendas, (b) conceitos relevantes para a entrada e (c) representações vetoriais latentes. Através de experiências extensivas, mostramos que o TTLLCap supera os métodos anteriores de treino sem supervisão e apenas com texto no que toca a capacidades de generalização, e também analisamos o impacto de diferentes escolhas em relação à configuração do componente de retrieval augmentation.
Modelos de Visão-Linguagem, Legendagem de Imagens, Treino com Texto, Geração com Augmentação por Recolha

junho 21, 2024, 18:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

David Manuel Martins de Matos

Departamento de Engenharia Informática (DEI)

Professor Associado