Dissertação

Técnicas para Remoção de Links Não Informativos EVALUATED

A existência de spam na web diminui significativamente a sua usabilidade para os utilizadores. Além disso, diminui também a performance dos motores de busca, que apresentam resultados pouco relevantes, devido às diversas técnicas de manipulação existentes actualmente. Para combater este fenómeno, torna-se necessário efectuar a distinção entre links informativos e links não informativos. Este trabalho distingue-se de outros da mesma área pelo facto de se focar na detecção de links não informativos e não simplesmente na detecção de spam (que é apenas um subconjunto). Além disso, a utilização de classificadores pela maioria desses métodos diminui bastante a sua usabilidade, o que já não acontece no nosso caso, devido ao uso de clustering. Neste trabalho propomos três métodos distintos para a detecção automática de links não informativos, com base na análise de características estatísticas dos links existentes entre páginas web: selecção de features, em que métodos de selecção de features de texto são adaptados à selecção de links na web; classificação, através de uma combinação linear de features ou de um classificador SVM; e clustering (CLUTO e k-means), em que os links são separados em duas classes - informativos e não informativos. Os testes realizados com colecções de diversos tamanhos revelaram que todos os métodos, com excepção do método de selecção de features, são eficazes na detecção de links não informativos. O algoritmo k-means apresenta a maior vantagem pelo facto de suportar colecções grandes e de ser o algoritmo que requer menor intervenção humana.
Web, Spam, Detecção, Links Não Informativos, Features, Clustering

Outubro 27, 2008, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Auxiliar