Dissertação

Classificação Automática de Páginas Web numa Hierarquia de Tópicos EVALUATED

O volume de documentos actualmente disponíveis na Internet tornou-se impossível de catalogar humanamente. Dado isto, vários autores têm pesquisado técnicas para classificação automática, capazes de atribuir a uma classe a novos documentos de acordo com uma hierarquia de classes. Estas técnicas possibilitam a organização de conteúdo textual por tópico. A minha tese de mestrado propõe a extensão da tradicional abordagem top-down para executar classificação hierárquica. Nesta extensão o classificador tenta evitar erros de classificação em níveis mais elevados, considerando um caminho alternativo, que pode retornar uma classe da hierarquia de classes que melhor se encaixa um novo documento que a classe retornado pelo primeiro caminho. Além da extensão para a abordagem top-down, a minha tese de mestrado também propõe dois métodos para reduzir o tamanho dos dados de treino, tentando reduzir o tempo gasto para treinar o classificador. O primeiro, chamado naive, define um limite para o número de documentos por classe filho ignorando se temos documentos de todas as classes filho de N_i ou não. O segundo método, não só tenta ter os documentos de todos os nós N_j que são nós filhos de N_i, mas também tenta ter um número igual de documentos de cada nó filho. Finalmente, foram realizadas experiências com métodos simples para a selecção de features, tais como stemming ou remoção de stopwords, a fim de medir o impacto sobre os resultados. Os resultados confirmaram as expectativas sobre o método de classificação proposto. Foram verificadas melhorias nos valores de precisão e medida-F.
Classificação de páginas Web, Classificação automática, Hierárquia de tópicos, Aprendizagem automática, Selecção de documentos, Selecção de features

Julho 28, 2011, 11:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

CO-ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar