Dissertação

{pt_PT=2Gather4Health: Web Crawling and Indexing system Implementation } {} EVALUATED

{pt=Na área da saúde, os doentes tendem a ter mais atenção às suas necessidades do que os produtores de mercado. Então, é normal começar a ver um comportamento inovador vindo destes, ou dos seus cuidadores, que os ajude a lidar com as suas condições de saúde, antes dos produtores. Hoje, acredita-se que estes utilizadores partilham as suas soluções inovadoras relacionadas com saúde, também chamadas soluções orientadas ao doente, na Internet. No entanto, o tamanho desta faz com que uma procura manual por estas soluções seja inefeciente. Esta tese de Mestrado propõe um crawler focado que procura por soluções inovadoras orientadas ao doente na Web, guardando e indexando-as para facilitar uma futura tiragem médica. Foram feitos um destilador e um classificador para desempenhar a tarefa de foco. O destilador ordena os URLs a visitar, segundo uma dada pontuação. Esta é uma combinação linear de três componentes, que dependem do conteúdo, do contexto do URL ou das pontuações das páginas onde este foi encontrado. O classificador classifica as páginas web visitadas, verificando se se referem a soluções orientadas ao doente. Comparando medidas de harvest rate e target recall, mostra-se que o sistema desenvolvido supera um crawl de busca em largura e abordagens focadas comuns, quando se procura por soluções orientadas ao doente. Os resultados do classificador proposto em dados extraídos de um crawl desviam-se dos resultados da validação. No entanto, foi proposta uma abordagem para retreinar o classificador com dados provenientes de um crawl e os resultados mostram uma melhoria no desepenho., en=In healthcare, patients tend to be more aware of their needs than market producers. So, it is only normal to start seeing innovative behavior emerging from them, or from their caregivers, to help them cope with their health conditions, before producers. Today, it is believed that these users share their innovative health-related solutions, also called patient-driven solutions, on the Internet. However, the size of the Internet makes it hard to efficiently manually browse for these solutions. A focused crawler is a system that automatically browses the Web, focusing its search on a topic of interest. This Master thesis proposes a focused crawler that searches the Web for patient-driven solutions, storing and indexing them to ease a further medical screening. To perform the focusing task, it was developed a distiller and a classifier. The distiller ranks the URLs to visit, sorting them by a given score. This is a linear combination of three components, that depend on the content, URL context, or scores of the pages where the URL was found. The classifier automatically classifies visited webpages, verifying if they concern patient-driven solutions. In this thesis, it is shown that the developed system outperforms a breadth-first crawling and common focused approaches on measures of harvest rate and target recall, while searching for patient-driven solutions. The proposed classifier's results on crawled data deviate from its validation results. However, it is proposed an approach to re-train the classifier with crawled data that improves its performance.}
{pt=crawler focado, Patient Innovation, indexador de web, classificação de texto, en=focused crawler, Patient Innovation, web indexer, text classification}

Novembro 16, 2018, 11:0

Orientação

ORIENTADOR

João Paulo Baptista de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

Fernando Manuel Marques Batista

ISCTE-IUL

Professor Auxiliar