Enunciado

A colecção para testes em IR de nome OSHUMED é um subconjunto do das referências bibliográficas do sistema MEDLINE, consistindo de 348,566 referências para artigos em cerca de 270 revistas da área da medicina. Esta colecção foi já usada em várias experiências na área de information retrieval, tendo-se que a mesma é distríbuida em conjunto com um total de 106 tópicos de pesquisa para os quais se conhecem quais os documentos relevantes.

No projecto de RI, pretende-se que os alunos construam um sistema capaz de retornar os documentos mais relevantes da colecção OSHUMED, para o conjunto de tópicos proposto. A qualidade dos resultados será aferida através da medida " Mean Average Precision (MAP)", devendo os alunos construir um sistema capaz de produzir resultados no formato da ferramenta de avaliação " trec_eval".

Os alunos devem usar o sistema PostgreSQL Full-Text, podendo no entanto escolher as estratégias de ranking e processamento dos documento que considerarem mais adequadas.

Algumas sugestões:

  • Utilizar as capacidades de pesquisa e indexação existentes no PostgreSQL, testando diferentes combinações dos campos a indexar (título, abstract, etc.) e diferentes parametrizações das funções de ranking;
  • Utilizar uma estratégia de expansão de consultas;
  • Implementar funções de ranking diferentes (e.g., coseno, BM25);
  • Utilizar machine learning para aprender uma formula de ranking capaz de ordenar os documentos por relevância, posteriormente integrando-a no PostgreSQL.

Links relevantes

Avaliação

O projecto deverá ser executado usando os mecanismos de indexação e pesquisa full-text do SGDB PostgreSQL.

Devem ser gerados ficheiros de texto (i.e, as runs) com o formato adequado à ferramenta trec_eval, que será usada para medir os valores de MAP. Os julgamentos de relevância que servirão para medir a qualidade dos resultados econtram-se no ficheiro "drel.i" (que contém pares tópico-documento julgados como efectivamente relevantes).

Adicionalmente às runs, deverá ser entregue um relatório de, no máximo, duas páginas ( formato ACM) descrevendo o trabalho efectuado, as estratégias escolhidas, os testes que justificaram a sua escolha e os resultados obtidos. O aluno pode, e deve, mencionar todas as estratégias testadas que achar interessantes, mesmo que não tenham obtido os melhores resultados.

A pontuação do projecto será atribuída da seguinte maneira: as estratégias serão ordenadas pelo valor de MAP obtido na colecção dada. De acordo com esta ordem, o número de pontos a atribuír será

  • Primeiro lugar: 6 pontos;
  • Segundo lugar: 5 pontos;
  • Terceiro lugar: 4 pontos;
  • Restantes: 3 pontos;
  • Não entrega/runs inválidas: 0 pontos.