Dissertação
Using contrastive learning to learn representations from texts and images EVALUATED
"Contrastive Language-Image Pre-training" (pré-treino contrastivo de linguagem-imagem) é um modelo multimodal que aprende simultaneamente representações de texto e imagens. Treinado num corpus vasto de dados não rotulados, CLIP ultrapassa o desempenho de modelos anteriores que usavam dados manualmente rotulados. Com o sucesso de CLIP surgiram modelos de visão-linguagem de grande escala, motivando a criação de um enorme dataset de imagem-texto multilingue, chamado LAION-5B, e o desenvolvimento de OpenCLIP, um repositório de modelos CLIP "open-source". O desempenho de CLIP em contextos específicos ou em outras línguas pode ser melhorado com "fine-tuning'", como foi demonstrado em CLIP-Italian. Neste trabalho, um modelo CLIP pré-treinado é "fine-tuned" num dataset português e avaliado em tarefas como classificação de imagens zero-shot, busca de imagens e geração condicional de imagens. Expandindo o dataset de treino com LAION-5B e empregando os modelos maiores do OpenCLIP, este modelo pretende melhorar o trabalho de CLIP-Italian, levando ao aumento da precisão em classificação de imagens "zero-shot" com "prompts" em português. Uma estrutura para adaptar modelos CLIP para geração condicional de imagens é criada, usando as suas capacidade de representação imagem-texto em conjunto com um gerador StyleGAN, num processo baseado em StyleCLIP. Os resultados mostram que os modelos "fine-tuned" em português obtiveram piores resultados que os modelos multilingues na maioria dos casos nas três tarefas de avaliação, mas em algumas experiências conseguem ultrapassá-los. Algumas melhorias ao "fine-tuning" dos modelos são sugeridas e podem ser implementadas em trabalhos futuros.
junho 28, 2024, 12:0
Documentos da dissertação ainda não disponíveis publicamente
Orientação
ORIENTADOR
Arlindo Manuel Limede de Oliveira
Departamento de Engenharia Informática (DEI)
Professor Catedrático