Dissertação

Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs EVALUATED

A Compreensão de Expressões de Referência (REC) requer que os modelos localizem objetos em imagens com base em descrições em linguagem natural, mas a investigação na área continua predominantemente centrada no inglês, apesar das crescentes exigências de implementação global. Este trabalho aborda o REC multilingue através de duas contribuições principais: primeiro, construímos um conjunto de dados multilingue unificado que abrange 10 línguas, expandindo sistematicamente 12 benchmarks REC existentes em inglês através de tradução automática e aperfeiçoamento contextual das traduções; o nosso conjunto de dados inclui 8 milhões de expressões de referência multilingues distribuídas por 177,620 imagens, com 336,882 objetos anotados. Em segundo lugar, introduzimos uma arquitetura neuronal “attention-anchored” que utiliza codificadores multilingues SigLIP2 congelados; a nossa abordagem baseada em atenção gera âncoras espaciais grosseiras a partir das distribuições de atenção, posteriormente refinadas por resíduos aprendidos. A avaliação experimental demonstra um desempenho competitivo em benchmarks padrão, alcançando 86.9% de precisão em IoU@50 na avaliação multilingue agregada do RefCOCO, comparado com 91.3% apenas em inglês. A avaliação multilingue revela capacidades consistentes entre famílias linguísticas, estabelecendo a viabilidade prática de sistemas de visual grounding multilingues.
Referring Expression Comprehension, Modelos Visão-Linguagem Multilingues.

dezembro 4, 2025, 16:30

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Alexandre José Malheiro Bernardino

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Electrotécnica e de Computadores

Professor Associado