FenixEdu™

Propostas

1 - Learning to rank for keyword extraction

A ideia deste trabalho é usar uma biblioteca de learning to rank, tal como o RankLib (http://www.cs.umass.edu/~vdang/ranklib.html), numa tarefa de extracção de palavras chave desde documentos (a biblioteca pode ser usada para combinar diferentes estimadores de relevância para os termos). O trabalho irá envolver as seguintes etapas:

* Fazer um extractor de termos chave desde documentos de texto (e.g., extrair as palavras individuais e os termos compostos de n-palavras).* Calcular uma série de características sobre os termos (e.g., frequência nodocumento, frequência na Web, estar em maiúsculas, etc.) * Usar a biblioteca de learning to rank para combinar as caractesrísticas, eordenar os termos extraídos pela sua relevância.* Avaliar os resultados com uma colecção existente, tal como a do SemEval 2010 (http://semeval2.fbk.eu/semeval2.php?location=tasks#T6)

6 - Lucene Search Indexes

A ideia deste trabalho relaciona-se com a construção de um sistema de pesquisa com o software Lucene (http://lucene.apache.org), usando o mesmo para indexar uma colecção de documentos da Wikipedia (i.e., a colecção de documentos formando a knowledge-base da TAC-KBP) e posteriormente colocando o sistema online no Google App Engine. O trabalho irá envolver as seguintes etápas:

1 - Indexar a colecção de documentos da Wikipedia com o Lucene.2 - Desenvolver a interface do sistema de pesquisa. 3 - Colocar a interface online no Google App Engine, usando por exemplo o pacote de software gaelucene (http://code.google.com/p/gaelucene/)

10 - Implementação do algoritmo STALKER

Implementação de um algoritmo de extracção de dados da Web.

11 - Aplicação do SentiWordNet em português

Aplicar algoritmos de dtecção de palavras positivas e negativas num thesaurus de português.

Recuperação e Gestão de Informação

Propostas