FenixEdu™

Dissertação

{en_GB=Deep Learning Methods for Processing Digitized Herbarium Specimens} {} EVALUATED

Detalhes: {pt=Com centenas de colecções de herbários, actualmente em Museus de História Natural e outras instituições semelhantes, acumulou-se um valioso património. Recentes iniciativas iniciaram ambiciosos planos de preservação para digitalizar esta informação e disponibilizá-la aos botânicos e ao público em geral através de portais web. Esta informação é crucial para o estudo da diversidade vegetal, ecologia, evolução e genética. Um Herbário é uma colecção de espécimes de plantas preservadas e meta-dados utilizados para o estudo científico. O método de digitalização e catalogação utilizando a visão computacional, bem como as abordagens machine learning aplicadas às folhas de herbário, podem ambos ser considerados promissores, métodos recentes baseados em redes neurais profundas ainda não estão bem estudados para a resolução deste problema em comparação com outras áreas. Passaremos a projectar um modelo que pode ser utilizado para alcançar a próxima geração de precisão para a catalogação de Herbários. Para atingir este objectivo, exploraremos aplicar ao caso de estudo modelos e técnicas mais avançadas. Utilizaremos dois modelos para extrair informação útil para a catalogar as espécies, o modelo YOLOv4 que terá a tarefa de identificar as etiquetas presentes na folha em conjunto com um modelo Transformer que ira extrair os dados uteis para catalogação utilizando uma técnica de geração de texto condicionado em imagens. Os resultados obtidos foram pouco conclusivos, devido ao tipo de rede neuronal desenvolvida ser bastante recente. Em conclusão foi que o modelo e bom para dados estandardizado, mas falha por completo em dados do mundo real por serem demasiado aleatorios., en=Hundreds of herbarium collections, currently in Natural History Museums and other similar institutions, have accumulated a valuable heritage and knowledge of plants over several centuries. Recent initiatives started ambitious preservation plans to digitize this information and make it available to botanists and the general public through web portals. Such information is crucial for the study of plant diversity, ecology, evolution, and genetics. The method of digitization and cataloging using computer vision, as well as the machine learning approaches applied to herbarium sheets, can both be considered promising, recent methods based on deep neural network are still not well studied in this problem domain in comparison to other areas. We will go over a model that can be used to achieve next generation precision and utilities for this field of cataloging Herbarium. To achieve this goal, we will explore and try to apply state of the art techniques, models and architectures to the study case. We will use two models to extract useful information for cataloging the species, the YOLOv4 model that will have the task of extracting the labels present on the sheet together with the Transformer model that will extract useful data for cataloging using a technique of text generation conditioned on images. The results obtained were inconclusive, because the type of neural network developed was quite recent, more tests would have to be done. Concluding the model is good for standardized data but fails completely on real world data that is not very standardized.}
Keywords: {pt=Transformers, Yolov4, Herbários, Geração de texto condicionado em imagens, Visão computacional, Aprendizagem de máquina, en=Transformers, Yolov4, Herbarium, Text generation based on Images, Computer Vision, Machine Learning}

Discussão: junho 15, 2022, 16:0