Programa

Processamento e Recuperação de Informação

Mestrado Bolonha em Engenharia de Telecomunicações e Informática

Mestrado Bolonha em Engenharia Informática e de Computadores - Alameda

Mestrado Bolonha em Engenharia Informática e de Computadores - Taguspark

Programa

• Introdução à extração e recuperação de informação ◦ Arquitetura geral de sistemas de IR/IE ◦ Pré-processamento de documentos em IR/IE • Modelos para dados não estruturados ◦ O modelo booleano para recuperação de informação (RI) ◦ Pesagem de termos e o modelo do espaço vectorial ◦ Redução de dimensionalidade e latent semantic indexing ◦ Modelos probabilísticos, o modelo BM25, e modelos de linguagem para RI • Processamento de Informação não estruturada e extração de informação a partir de texto ◦ Classificação e agrupamento automático de documentos ◦ Classificação de documentos com o modelo naive Bayes ◦ Extracção de informação com hidden Markov models • Avaliação em recuperação e extração de informação ◦ Métricas de avaliação (precisão, abrangência, MAP, NDCG) ◦ Coleções de referência, o TREC e a metodologia de avaliação de Cranfield ◦ validação cruzada e outras considerações práticas • Modelos de dados semi-estruturados ◦ Modelos de dados semi-estruturados (e.g., baseados em JSON) ◦ A Extensible Markup Language (XML) e tecnologias relacionadas (e.g., XPath) ◦ Linguagens de markup baseadas em XML (e.g., TEI, METS, MODS) ◦ Outros modelos e linguagens de markup (e.g., SGML, HTML e RDF) • Processamento de informação semi-estruturada e extração de dados da Web ◦ Geração de wrappers e extração de informação a partir de recursos na Web ◦ Consultas a dados semi-estruturados e a linguagem XQuery ◦ Recuperação de informação em coleções de dados XML • Análise de hiperligações e recuperação de informação na Web ◦ Modelos da Web ◦ Conceitos gerais sobre grafos e métodos de análise de hiperligações ◦ Ordenação de resultados em motores de busca na Web, com base na análise de hiperligações ◦ Recolha de dados da Web • Indexação e consulta de informação não estruturada ◦ Expressões regulares ◦ Índices invertidos e construção eficiente de índices ◦ Processamento de consultas com índices invertidos • Pesquisa por itens similares e pesquisa por similaridade em dados multi-dimensionais ◦ Shingling de documentos e a medida de similaridade de Jaccard entre conjuntos de documentos ◦ Similarity-preserving sumaries of sets e a técnica min-hash ◦ Locality-sensitive hashing ◦ Aplicações em recuperação de informação multimédia • Sistemas de recomendação ◦ Contexto, personalização, e filtragem de informação ◦ Sistemas de recomendação com base no conteúdo ◦ Sistemas de filtragem colaborativa • Técnicas de processamento distribuído para IR e IE ◦ Particionamento de dados e técnicas distribuídas para IR/IE ◦ Consultas federadas e sistemas de meta-pesquisa ◦ Processamento map-reduce na gestão de dados da Web • Aplicações para as técnicas de IE e IR ◦ Enterprise search e pesquisa de peritos ◦ Bibliotecas digitais ◦ Prospecção de opiniões em conteúdos online ◦ Outras aplicações (e.g., publicidade online)