Disciplina
Processamento e Recuperação de Informação
Área
Área Científica de Sistemas de Informação > Tecnologias de Sistemas de Informação
Activa nos planos curriculares
MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Sistemas de Informação > Processamento e Recuperação de Informação
METI 2018 > METI 2018 > 2º Ciclo > Áreas de Especialização > Gestão das Redes, da Informação e dos Serviços > Processamento e Recuperação de Informação
MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Tecnologias da Informação e Linguagem > Processamento e Recuperação de Informação
MEIC-A 2018 > MEIC-A 2018 > 2º Ciclo > Agrupamentos > Tecnologias da Informação e Linguagem > Processamento e Recuperação de Informação
METI 2021 > METI 2021 > 2º Ciclo > Área Principal > Especializações > Especialização em Ciência de Dados para a Web > Informática > Processamento e Recuperação de Informação
MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Tecnologias da Informação e Linguagem > Processamento e Recuperação de Informação
MECD2019 > MECD2019 > 2º Ciclo > Opções > Processamento e Recuperação de Informação
MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Tecnologia para Processamento de Informação e Linguagem > Processamento e Recuperação de Informação
MERC 2006 > MERC 2006 > 2º Ciclo > Tronco Comum > Processamento e Recuperação de Informação
MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Tecnologia para Processamento de Informação e Linguagem > Processamento e Recuperação de Informação
MEIC-A 2006 > MEIC-A 2006 > 2º Ciclo > Área Aplicacional > Informação e Conhecimento > Processamento e Recuperação de Informação
Nível
A avaliação de Processamento e Recuperação de Informação consistirá num exame final (55% da nota final, mínimo de 9.5v) e em 3 mini-projectos (45% da nota final, mínimo de 9.5v). Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota do exame e a dos projetos, em função da prestação do aluno nesta prova.
Tipo
Não Estruturante
Regime
Semestral
Carga Horária
1º Semestre
3.0 h/semana
1.5 h/semana
147.0 h/semestre
Objectivos
A disciplina de Processamento e Recuperação de Informação visa proporcionar uma introdução completa e atualizada aos conceitos-chave, tecnologias, e mecanismos de processamento de dados utilizados nas áreas da Recuperação de Informação (IR), Filtragem de Informação (IF), e Extração de Informação (IE). Os alunos da disciplina aprenderão os conceitos teóricos fundamentais nestas áreas, adquirindo as competências teóricas e práticas necessárias para: 1. Projetar soluções modernas para o processamento, gestão e interrogação de grandes volumes de informação não estruturada ou semi-estruturada; 2. Classificar e agrupar automaticamente conjuntos de recursos (e.g., grandes conjuntos de documentos de texto) através de características descritivas; 3. Conceber sistemas para a recuperação e filtragem da informação relevante existem em grandes coleções, com base em termos chave, com base em exemplos, ou com base em perfis dos utilizadores; 4. Conceber sistemas para a extração de informação desde documentos de texto, ou desde a Web; 5. Avaliar comparativamente diferentes sistemas para a extração, filtragem e recuperação de informação relevante.
Programa
• Introdução à extração e recuperação de informação ◦ Arquitetura geral de sistemas de IR/IE ◦ Pré-processamento de documentos em IR/IE • Modelos para dados não estruturados ◦ O modelo booleano para recuperação de informação (RI) ◦ Pesagem de termos e o modelo do espaço vectorial ◦ Redução de dimensionalidade e latent semantic indexing ◦ Modelos probabilísticos, o modelo BM25, e modelos de linguagem para RI • Processamento de Informação não estruturada e extração de informação a partir de texto ◦ Classificação e agrupamento automático de documentos ◦ Classificação de documentos com o modelo naive Bayes ◦ Extracção de informação com hidden Markov models • Avaliação em recuperação e extração de informação ◦ Métricas de avaliação (precisão, abrangência, MAP, NDCG) ◦ Coleções de referência, o TREC e a metodologia de avaliação de Cranfield ◦ validação cruzada e outras considerações práticas • Modelos de dados semi-estruturados ◦ Modelos de dados semi-estruturados (e.g., baseados em JSON) ◦ A Extensible Markup Language (XML) e tecnologias relacionadas (e.g., XPath) ◦ Linguagens de markup baseadas em XML (e.g., TEI, METS, MODS) ◦ Outros modelos e linguagens de markup (e.g., SGML, HTML e RDF) • Processamento de informação semi-estruturada e extração de dados da Web ◦ Geração de wrappers e extração de informação a partir de recursos na Web ◦ Consultas a dados semi-estruturados e a linguagem XQuery ◦ Recuperação de informação em coleções de dados XML • Análise de hiperligações e recuperação de informação na Web ◦ Modelos da Web ◦ Conceitos gerais sobre grafos e métodos de análise de hiperligações ◦ Ordenação de resultados em motores de busca na Web, com base na análise de hiperligações ◦ Recolha de dados da Web • Indexação e consulta de informação não estruturada ◦ Expressões regulares ◦ Índices invertidos e construção eficiente de índices ◦ Processamento de consultas com índices invertidos • Pesquisa por itens similares e pesquisa por similaridade em dados multi-dimensionais ◦ Shingling de documentos e a medida de similaridade de Jaccard entre conjuntos de documentos ◦ Similarity-preserving sumaries of sets e a técnica min-hash ◦ Locality-sensitive hashing ◦ Aplicações em recuperação de informação multimédia • Sistemas de recomendação ◦ Contexto, personalização, e filtragem de informação ◦ Sistemas de recomendação com base no conteúdo ◦ Sistemas de filtragem colaborativa • Técnicas de processamento distribuído para IR e IE ◦ Particionamento de dados e técnicas distribuídas para IR/IE ◦ Consultas federadas e sistemas de meta-pesquisa ◦ Processamento map-reduce na gestão de dados da Web • Aplicações para as técnicas de IE e IR ◦ Enterprise search e pesquisa de peritos ◦ Bibliotecas digitais ◦ Prospecção de opiniões em conteúdos online ◦ Outras aplicações (e.g., publicidade online)
Metodologia de avaliação
A avaliação de Processamento e Recuperação de Informação consistirá num exame final (55% da nota final, mínimo de 9.5v) e em 3 mini-projectos (45% da nota final, mínimo de 9.5v). Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota do exame e a dos projetos, em função da prestação do aluno nesta prova.
Pré-requisitos
Componente Laboratorial
Princípios Éticos
Componente de Programação e Computação
Componente de Competências Transversais
Bibliografia
Principal
Modern Information Retrieval, the concepts and technology behind search - 2nd edition
Ricardo Baeza-Yates and Berthier Ribeiro-Neto
Web Data Mining: Exploring Hyperlinks, Contents and Usage Data - 2nd edition
Secundária
Introduction to Information Retrieval
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze
Anand Rajaraman, Jure Leskovec and Jeffrey D. Ullman
Managing Gigabytes: Compressing and Indexing Documents and Images - 2nd edition
Ian H. Witten, Alistair Moffat, Timothy C. Bell