Disciplina

Área

Área Científica de Sistemas de Informação > Tecnologias de Sistemas de Informação

Activa nos planos curriculares

MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Sistemas de Informação > Processamento e Recuperação de Informação

METI 2018 > METI 2018 > 2º Ciclo > Áreas de Especialização > Gestão das Redes, da Informação e dos Serviços > Processamento e Recuperação de Informação

MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Tecnologias da Informação e Linguagem > Processamento e Recuperação de Informação

MEIC-A 2018 > MEIC-A 2018 > 2º Ciclo > Agrupamentos > Tecnologias da Informação e Linguagem > Processamento e Recuperação de Informação

METI 2021 > METI 2021 > 2º Ciclo > Área Principal > Especializações > Especialização em Ciência de Dados para a Web > Informática > Processamento e Recuperação de Informação

MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Tecnologias da Informação e Linguagem > Processamento e Recuperação de Informação

MECD2019 > MECD2019 > 2º Ciclo > Opções > Processamento e Recuperação de Informação

MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Tecnologia para Processamento de Informação e Linguagem > Processamento e Recuperação de Informação

MERC 2006 > MERC 2006 > 2º Ciclo > Tronco Comum > Processamento e Recuperação de Informação

MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Tecnologia para Processamento de Informação e Linguagem > Processamento e Recuperação de Informação

MEIC-A 2006 > MEIC-A 2006 > 2º Ciclo > Área Aplicacional > Informação e Conhecimento > Processamento e Recuperação de Informação

Nível

A avaliação de Processamento e Recuperação de Informação consistirá num exame final (55% da nota final, mínimo de 9.5v) e em 3 mini-projectos (45% da nota final, mínimo de 9.5v). Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota do exame e a dos projetos, em função da prestação do aluno nesta prova.

Tipo

Não Estruturante

Regime

Semestral

Carga Horária

1º Semestre

3.0 h/semana

1.5 h/semana

147.0 h/semestre

Objectivos

A disciplina de Processamento e Recuperação de Informação visa proporcionar uma introdução completa e atualizada aos conceitos-chave, tecnologias, e mecanismos de processamento de dados utilizados nas áreas da Recuperação de Informação (IR), Filtragem de Informação (IF), e Extração de Informação (IE). Os alunos da disciplina aprenderão os conceitos teóricos fundamentais nestas áreas, adquirindo as competências teóricas e práticas necessárias para: 1. Projetar soluções modernas para o processamento, gestão e interrogação de grandes volumes de informação não estruturada ou semi-estruturada; 2. Classificar e agrupar automaticamente conjuntos de recursos (e.g., grandes conjuntos de documentos de texto) através de características descritivas; 3. Conceber sistemas para a recuperação e filtragem da informação relevante existem em grandes coleções, com base em termos chave, com base em exemplos, ou com base em perfis dos utilizadores; 4. Conceber sistemas para a extração de informação desde documentos de texto, ou desde a Web; 5. Avaliar comparativamente diferentes sistemas para a extração, filtragem e recuperação de informação relevante.

Programa

• Introdução à extração e recuperação de informação ◦ Arquitetura geral de sistemas de IR/IE ◦ Pré-processamento de documentos em IR/IE • Modelos para dados não estruturados ◦ O modelo booleano para recuperação de informação (RI) ◦ Pesagem de termos e o modelo do espaço vectorial ◦ Redução de dimensionalidade e latent semantic indexing ◦ Modelos probabilísticos, o modelo BM25, e modelos de linguagem para RI • Processamento de Informação não estruturada e extração de informação a partir de texto ◦ Classificação e agrupamento automático de documentos ◦ Classificação de documentos com o modelo naive Bayes ◦ Extracção de informação com hidden Markov models • Avaliação em recuperação e extração de informação ◦ Métricas de avaliação (precisão, abrangência, MAP, NDCG) ◦ Coleções de referência, o TREC e a metodologia de avaliação de Cranfield ◦ validação cruzada e outras considerações práticas • Modelos de dados semi-estruturados ◦ Modelos de dados semi-estruturados (e.g., baseados em JSON) ◦ A Extensible Markup Language (XML) e tecnologias relacionadas (e.g., XPath) ◦ Linguagens de markup baseadas em XML (e.g., TEI, METS, MODS) ◦ Outros modelos e linguagens de markup (e.g., SGML, HTML e RDF) • Processamento de informação semi-estruturada e extração de dados da Web ◦ Geração de wrappers e extração de informação a partir de recursos na Web ◦ Consultas a dados semi-estruturados e a linguagem XQuery ◦ Recuperação de informação em coleções de dados XML • Análise de hiperligações e recuperação de informação na Web ◦ Modelos da Web ◦ Conceitos gerais sobre grafos e métodos de análise de hiperligações ◦ Ordenação de resultados em motores de busca na Web, com base na análise de hiperligações ◦ Recolha de dados da Web • Indexação e consulta de informação não estruturada ◦ Expressões regulares ◦ Índices invertidos e construção eficiente de índices ◦ Processamento de consultas com índices invertidos • Pesquisa por itens similares e pesquisa por similaridade em dados multi-dimensionais ◦ Shingling de documentos e a medida de similaridade de Jaccard entre conjuntos de documentos ◦ Similarity-preserving sumaries of sets e a técnica min-hash ◦ Locality-sensitive hashing ◦ Aplicações em recuperação de informação multimédia • Sistemas de recomendação ◦ Contexto, personalização, e filtragem de informação ◦ Sistemas de recomendação com base no conteúdo ◦ Sistemas de filtragem colaborativa • Técnicas de processamento distribuído para IR e IE ◦ Particionamento de dados e técnicas distribuídas para IR/IE ◦ Consultas federadas e sistemas de meta-pesquisa ◦ Processamento map-reduce na gestão de dados da Web • Aplicações para as técnicas de IE e IR ◦ Enterprise search e pesquisa de peritos ◦ Bibliotecas digitais ◦ Prospecção de opiniões em conteúdos online ◦ Outras aplicações (e.g., publicidade online)

Metodologia de avaliação

A avaliação de Processamento e Recuperação de Informação consistirá num exame final (55% da nota final, mínimo de 9.5v) e em 3 mini-projectos (45% da nota final, mínimo de 9.5v). Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota do exame e a dos projetos, em função da prestação do aluno nesta prova.

Pré-requisitos

Componente Laboratorial

Princípios Éticos

Componente de Programação e Computação

Componente de Competências Transversais

Bibliografia

Principal

Modern Information Retrieval, the concepts and technology behind search - 2nd edition

Ricardo Baeza-Yates and Berthier Ribeiro-Neto

2011

Addison-Wesley Professional


Web Data Mining: Exploring Hyperlinks, Contents and Usage Data - 2nd edition

Bing Liu

2011

Springer


Secundária

Introduction to Information Retrieval

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze

2008

Cambridge University Press


Mining of Massive Datasets

Anand Rajaraman, Jure Leskovec and Jeffrey D. Ullman

2013

Cambridge University Press


Managing Gigabytes: Compressing and Indexing Documents and Images - 2nd edition

Ian H. Witten, Alistair Moffat, Timothy C. Bell

2000

Morgan Kaufmann