Disciplina Curricular

Processamento e Recuperação de Informação RGI

Mestrado Bolonha em Engenharia Informática e de Computadores - Taguspark - MEIC-T 2015

Contextos

Grupo: MEIC-T 2015 > 2º Ciclo > Agrupamentos > Tecnologia para Processamento de Informação e Linguagem

Período:

Grupo: MEIC-T 2015 > 2º Ciclo > Agrupamentos > Sistemas de Informação

Período:

Peso

7.5 (para cálculo da média)

Objectivos

A disciplina de Processamento e Recuperação de Informação visa proporcionar uma introdução completa e atualizada aos conceitos-chave, tecnologias, e mecanismos de processamento de dados utilizados nas áreas da Recuperação de Informação (IR), Filtragem de Informação (IF), e Extração de Informação (IE). Os alunos da disciplina aprenderão os conceitos teóricos fundamentais nestas áreas, adquirindo as competências teóricas e práticas necessárias para: 1. Projetar soluções modernas para o processamento, gestão e interrogação de grandes volumes de informação não estruturada ou semi-estruturada; 2. Classificar e agrupar automaticamente conjuntos de recursos (e.g., grandes conjuntos de documentos de texto) através de características descritivas; 3. Conceber sistemas para a recuperação e filtragem da informação relevante existem em grandes coleções, com base em termos chave, com base em exemplos, ou com base em perfis dos utilizadores; 4. Conceber sistemas para a extração de informação desde documentos de texto, ou desde a Web; 5. Avaliar comparativamente diferentes sistemas para a extração, filtragem e recuperação de informação relevante.

Programa

• Introdução à extração e recuperação de informação ◦ Arquitetura geral de sistemas de IR/IE ◦ Pré-processamento de documentos em IR/IE • Modelos para dados não estruturados ◦ O modelo booleano para recuperação de informação (RI) ◦ Pesagem de termos e o modelo do espaço vectorial ◦ Redução de dimensionalidade e latent semantic indexing ◦ Modelos probabilísticos, o modelo BM25, e modelos de linguagem para RI • Processamento de Informação não estruturada e extração de informação a partir de texto ◦ Classificação e agrupamento automático de documentos ◦ Classificação de documentos com o modelo naive Bayes ◦ Extracção de informação com hidden Markov models • Avaliação em recuperação e extração de informação ◦ Métricas de avaliação (precisão, abrangência, MAP, NDCG) ◦ Coleções de referência, o TREC e a metodologia de avaliação de Cranfield ◦ validação cruzada e outras considerações práticas • Modelos de dados semi-estruturados ◦ Modelos de dados semi-estruturados (e.g., baseados em JSON) ◦ A Extensible Markup Language (XML) e tecnologias relacionadas (e.g., XPath) ◦ Linguagens de markup baseadas em XML (e.g., TEI, METS, MODS) ◦ Outros modelos e linguagens de markup (e.g., SGML, HTML e RDF) • Processamento de informação semi-estruturada e extração de dados da Web ◦ Geração de wrappers e extração de informação a partir de recursos na Web ◦ Consultas a dados semi-estruturados e a linguagem XQuery ◦ Recuperação de informação em coleções de dados XML • Análise de hiperligações e recuperação de informação na Web ◦ Modelos da Web ◦ Conceitos gerais sobre grafos e métodos de análise de hiperligações ◦ Ordenação de resultados em motores de busca na Web, com base na análise de hiperligações ◦ Recolha de dados da Web • Indexação e consulta de informação não estruturada ◦ Expressões regulares ◦ Índices invertidos e construção eficiente de índices ◦ Processamento de consultas com índices invertidos • Pesquisa por itens similares e pesquisa por similaridade em dados multi-dimensionais ◦ Shingling de documentos e a medida de similaridade de Jaccard entre conjuntos de documentos ◦ Similarity-preserving sumaries of sets e a técnica min-hash ◦ Locality-sensitive hashing ◦ Aplicações em recuperação de informação multimédia • Sistemas de recomendação ◦ Contexto, personalização, e filtragem de informação ◦ Sistemas de recomendação com base no conteúdo ◦ Sistemas de filtragem colaborativa • Técnicas de processamento distribuído para IR e IE ◦ Particionamento de dados e técnicas distribuídas para IR/IE ◦ Consultas federadas e sistemas de meta-pesquisa ◦ Processamento map-reduce na gestão de dados da Web • Aplicações para as técnicas de IE e IR ◦ Enterprise search e pesquisa de peritos ◦ Bibliotecas digitais ◦ Prospecção de opiniões em conteúdos online ◦ Outras aplicações (e.g., publicidade online)

Metodologia de avaliação

A avaliação de Processamento e Recuperação de Informação consistirá num exame final (55% da nota final, mínimo de 9.5v) e em 3 mini-projectos (45% da nota final, mínimo de 9.5v). Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota do exame e a dos projetos, em função da prestação do aluno nesta prova.

Disciplinas Execução

2020/2021 - 1º Semestre

2019/2020 - 1º Semestre

2018/2019 - 1ºSemestre

2017/2018 - 1ºSemestre

2016/2017 - 1ºSemestre

2015/2016 - 1º Semestre

Mestrado em Engenharia Informática e de Computadores (Campus Taguspark)