Dissertação

{pt_PT=DISSERTATION: Extracção de Informação Biológica em Artigos Científicos} {} EVALUATED

{pt=Ao longo dos anos, muitos trabalhos científicos têm sido publicados na área da Biologia a fim de compreender e antecipar os efeitos das mudanças globais que contribuem para a redução drástica da biodiversidade na Terra. Contudo, existe uma enorme dispersão do conhecimento e torna-se difícil o estudo aprofundado de cada espécie pois a informação é normalmente disseminada por muitos artigos diferentes. Com a evolução das tecnologias, técnicas de Text Mining têm sido desenvolvidas e utilizadas a fim de extrair automaticamente dados relevantes a partir de textos, imagens e gráficos. Neste trabalho o objectivo principal é extrair informação sobre aves, presente em artigos científicos tentando responder à questão, “Será possível construir um sistema que possa extrair automaticamente dados de determinadas espécies de aves a partir de artigos científicos?”. Para desenvolver a nossa solução criámos um sistema que procede à análise do texto através da combinação de técnicas de Processamento de Língua Natural, Expressões Regulares e algoritmos de Aprendizagem Automática. O sistema recebe, como entrada, o conjunto de artigos a analisar e, como resultado, apresenta os possíveis valores para as características da espécie que queremos observar (temperatura corporal, massa corporal, entre outros). Como principal conclusão deste trabalho, demonstrámos que é possível construir um sistema para a extracção de dados a partir de artigos científicos no domínio da Biologia. Contudo, ainda não é possível ter um sistema completamente automático tornando-se relevante um utilizador humano que possa resolver ambiguidades nos resultados., en=During the years, many scientific documents have been submitted in the area of Biology in order to understand and anticipate the effects of global warming in drastically reducing the biodiversity of Earth. Besides this, there is a huge dispersion of knowledge and it becomes difficult to deeply study each species as the information is usually spread over different articles. With the evolution of technologies, text mining techniques have been developed and used in order to extract automatically relevant data from texts, images and charts. In this work the main objective is to extract information on birds that are present in scientific articles trying to answer the question: “Is it possible to build a system that may extract automatically data regarding specific bird species from scientific articles?” To develop our solution, we created a system that analyses text through a combination of techniques of natural language processing, regular expressions and machine learning algorithms. The system receives, as input, the set of documents to analyze and as a result it presents the possible values to the characteristics of the species that we want to analyze (body temperature, body mass, among others). As main conclusion to this work, we demonstrated that it is possible to build a system that extracts data from scientific documents in the Biology domain. However, it is not yet possible to have a fully automatic process, being relevant to have a human user that may solve the result ambiguity.}
{pt=Base de Conhecimento, Text Mining, Extração de Informação, Aprendizagem Automática, Processamento de Língua Natural, en=Knowledge Bases, Text Mining, Information Extraction, Machine Learning, Natural Language Processing}

Novembro 14, 2016, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Tiago Morais Delgado Domingos

DEM/IST

Professor Auxiliar