Dissertação
Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs EVALUATED
A Compreensão de Expressões de Referência (REC) requer que os modelos localizem objetos em imagens com base em descrições em linguagem natural, mas a investigação na área continua predominantemente centrada no inglês, apesar das crescentes exigências de implementação global. Este trabalho aborda o REC multilingue através de duas contribuições principais: primeiro, construímos um conjunto de dados multilingue unificado que abrange 10 línguas, expandindo sistematicamente 12 benchmarks REC existentes em inglês através de tradução automática e aperfeiçoamento contextual das traduções; o nosso conjunto de dados inclui 8 milhões de expressões de referência multilingues distribuídas por 177,620 imagens, com 336,882 objetos anotados. Em segundo lugar, introduzimos uma arquitetura neuronal “attention-anchored” que utiliza codificadores multilingues SigLIP2 congelados; a nossa abordagem baseada em atenção gera âncoras espaciais grosseiras a partir das distribuições de atenção, posteriormente refinadas por resíduos aprendidos. A avaliação experimental demonstra um desempenho competitivo em benchmarks padrão, alcançando 86.9% de precisão em IoU@50 na avaliação multilingue agregada do RefCOCO, comparado com 91.3% apenas em inglês. A avaliação multilingue revela capacidades consistentes entre famílias linguísticas, estabelecendo a viabilidade prática de sistemas de visual grounding multilingues.
dezembro 4, 2025, 16:30
Documentos da dissertação ainda não disponíveis publicamente
Orientação
ORIENTADOR
Alexandre José Malheiro Bernardino
Departamento de Engenharia Electrotécnica e de Computadores (DEEC)
Professor Associado
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Electrotécnica e de Computadores
Professor Associado