Dissertação
Efficient Architectures for High Resolution Vision-Language Models EVALUATED
Os Modelos de Visão-Linguagem (MVLs) têm experienciado avanços significativos recentemente. No entanto, persistem desafios no reconhecimento preciso de detalhes mais finos dentro de imagens de alta resolução, o que limita o desempenho em múltiplas tarefas. Novos MVLs, como o LLaVA, abordaram este problema processando imagens em diferentes resoluções, embora ao custo de um aumento quadrático na complexidade computacional do mecanismo de atenção do modelo de linguagem. Este trabalho apresenta o Pheye, uma arquitetura nova que processa imagens de alta resolução de forma eficiente enquanto treina menos parâmetros do que MVLs de tamanho semelhante. O Pheye combina um modelo de linguagem Phi-1.5 congelado com um CLIP ViT através de camadas de atenção cruzada densa, e utiliza múltiplas camadas LoRA no modelo de visão para o processamento de imagens de alta resolução. Notavelmente, o Pheye alcança uma alta eficiência enquanto mantém um desempenho forte, particularmente em tarefas que exigem compreensão de detalhes finos e/ou manipulação de texto em imagens. O código e os modelos estão disponíveis em https://github.com/miguelscarv/pheye.
junho 18, 2024, 14:0
Documentos da dissertação ainda não disponíveis publicamente
Orientação
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Electrotécnica e de Computadores (DEEC)
Professor Associado