FenixEdu™

Dissertação

{pt_PT=Extração de Informação de Páginas Web} {} EVALUATED

Detalhes: {pt=O problema da extração de conteúdo de páginas Web tem sido objeto de estudo desde a expansão da World Wide Web. O seu objetivo é separar o conteúdo principal de uma página, como o texto de uma notícia, do conteúdo irrelevante, como anúncios e links de navegação. A maioria das abordagens de extração de conteúdo opera ao nível do bloco, ou seja, a página Web é segmentada em blocos e, em seguida, cada um desses blocos é determinado como parte do conteúdo principal ou do conteúdo irrelevante da página Web. Nesta tese, tentamos aplicar a extração de conteúdo a um nível mais profundo, ou seja, a elementos HTML. Durante o decorrer da tese, investigamos a noção de conteúdo principal mais de perto, criamos um conjunto de dados de páginas Web cujos elementos foram marcados manualmente como parte do conteúdo principal ou como conteúdo irrelevante e aplicamos Aprendizagem Automática (Machine Learning) a esse conjunto de dados para separar o conteúdo principal do conteúdo irrelevante. Propomos um algoritmo denominado X-CEX para resolver este problema de extração de conteúdo, baseado no Algoritmo Content Extractor. Finalmente, este método e os seus processos são avaliados a usar um conjunto de dados diferente de páginas Web, rotulados manualmente., en=The content extraction problem has been a subject of study ever since the expansion of the World Wide Web. Its goal is to separate the main content of a webpage, such as the text of a news, from the noisy content, such as advertisements and navigation links. Most content extraction approaches operate at a block level; that is, the webpage is segmented into blocks and then each of these blocks is determined to be part of the main content or the noisy content of the webpage. In this thesis, we try to apply content extraction at a deeper level, namely to HTML elements. During the course of the thesis, we investigate the notion of main content more closely, create a dataset of webpages whose elements have been manually labeled as either part of the main content or the noisy content, and apply machine learning to this dataset in order to separate the main content and the noisy content. We proposed an algorithm called X-CEX to solve this content extraction problem, it was based on the Content Extractor Algorithm. Finally, this method and it's processes are evaluated using a different dataset of manually labeled webpages.}
Keywords: {pt=Extração de Informação, Páginas Web, Aprendizagem Automática, Aprendizagem Supervisionada, Content Extractor, en=Information Extraction, Wep Pages, Machine Learning, Supervised Learning, Content Extractor}

Discussão: janeiro 15, 2021, 14:30