Disciplina

Área

Área Científica de Sistemas de Informação > Tecnologias de Sistemas de Informação

Activa nos planos curriculares

MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Sistemas de Informação > Análise e Integração de Dados

MEIC-A 2018 > MEIC-A 2018 > 2º Ciclo > Agrupamentos > Sistemas de Informação > Análise e Integração de Dados

MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Sistemas de Informação > Análise e Integração de Dados

MECD2019 > MECD2019 > 2º Ciclo > Opções > Análise e Integração de Dados

MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Bioinformática e Biologia Computacional > Análise e Integração de Dados

MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Sistemas de Informação > Análise e Integração de Dados

MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Bioinformática e Biologia Computacional > Análise e Integração de Dados

MEIC-A 2006 > MEIC-A 2006 > 2º Ciclo > Área de Especialização Complementar > Sistemas de Informação Empresariais > Análise e Integração de Dados

MEIC-T 2006 > MEIC-T 2006 > 2º Ciclo > Áreas de Especialização Complementares > Sistemas de Informação Empresariais > Análise e Integração de Dados

Nível

A avaliação de Análise e Integração de Dados consistirá num exame final (55% da nota final) e em três mini-projetos (45% da nota final). A nota mínima no exame é 9,5 e a média das notas dos mini-projectos é 9,5. Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota mais baixa entre a nota do exame e a dos projetos e a média obtida tendo em conta as notas do exame e projectos, em função da prestação do aluno nesta prova. Cada mini-projeto conterá, na sua maior parte, problemas práticos, para os quais os alunos deverão encontrar soluções programáticas. Os mini-projetos poderão incluír também questões teóricas. O primeiro mini-projeto abrangerá os tópicos 1-3 do programa; o segundo, os tópicos 4-7 do programa e o terceiro os tópicos 8-10 do programa.

Tipo

Não Estruturante

Regime

Semestral

Carga Horária

1º Semestre

3.0 h/semana

1.5 h/semana

147.0 h/semestre

Objectivos

A disciplina de Análise e Integração de Dados pretende ensinar aos alunos os conceitos mais importantes de integração de dados sobre duas perspectivas diferentes: virtual, onde as fontes de dados podem ser consultadas através de uma arquitectura de mediação; e wharehoused, onde um repositório de dados materializado (denominado armazém de dados ou data warehouse) é preenchido com dados provenientes das fontes. Adicionalmente, a disciplina ensinará as técnicas que podem ser utilizadas para explorar a informação: OLAP e reporting numa arquitectura wharehoused, e sistemas de mash-up numa arquitectura virtual. Os processos de integração de dados destinam-se a fornecer, entre outras aplicações, uma visão uniforme sobre um conjunto de fontes de dados autónomas e heterogéneas, facilitando assim o seu acesso para análise e visualização. Os domínios de aplicação são diversificados, desde os sistemas empresariais (sistemas de business intelligence) ao da investigação científica (bioinformática).

Programa

O programa de Análise e Integração de Dados inclui maioritariamente temas de Information Management (IM) do currículo ACM/IEEE CS 2013. Os temas do programa, a seguir apresentados, são etiquetados com tópicos desse currículo e da taxonomia ACM CCS 2012 para clarificação: Principais desafios dos processos de integração de dados; paradigmas de integração de dados. Fontes de dados heterógeneas: gestão e processamento de dados XML. ACM/IEEE CS 2013 IM/Information Management Concepts > Declarative and navigational queries 
 ACM/IEEE CS 2013 IM/Information Management Concepts > Information capture and representation 
 ACM/IEEE CS 2013 IM/Data Modelling > Semi-structured data model
 ACM/IEEE CS 2013 CN/Data, Information, and Knowledge
 ACM CCS 2012 Information systems > Data Management Systems > Data model extensions > Semi-structured data Fontes de dados heterógenas: gestão e processamento de dados provenientes de sensores (stream data). Integração Virtual: wrappers-mediadores; manipulação de interrogações. ACM/IEEE CS 2013 IM/Database Systems > Systems supporting structured and/or stream content
ACM/IEEE CS 2013 CN/Data, Information, and Knowledge
ACM CCS 2012 Information systems > Database management system engines > Stream management ACM CCS 2012 Information systems > Data Management Systems > Information integration > Mediators and data integration ACM CCS 2012 Information systems > Data Management Systems > Information integration > Wrappers (data mining) ACM CCS 2012 Information systems > Data Management Systems > Data model extensions > Data Streams Execução de interrogações usando vistas; descrições de fonte. 
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Mediators and data integration Linguagens de mapeamento de esquemas; global-as-view e local-as-view; mapeamento e emparelhamento de esquemas. 
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Mediators and data integration Wrappers: construção manual e construção automática. ACM CCS 2012 Information systems > Data Management Systems > Information integration > Wrappers (data mining) ACM CCS2012 Information systems> WorldWideWeb>Web mining > Data extraction and integration
 ACM CCS 2012 Information systems > World Wide Web > Web mining > Site Wrapping • Data warehousing: o modelo multi-dimensional; concepção de data warehouses. ACM/IEEE CS 2013 IM/Data Modelling > Spreadsheet models ACM CCS 2012 Information systems > Data Management Systems > Information integration > Data warehouses
 ACM CCS 2012 Information systems > Information systems applications > Decision support systems > Data warehouses • OLAP (Online-Analytical Processing) e ETL (Extraction-Transformation-Loading). 
 ACM/IEEE CS 2013 IM/DataMining > Data Visualization ACM/IEEE CS 2013 IM/Storage and Retrieval > Information Summarization and Visualization
 ACM CCS 2012 Information systems > Data Management Systems > Database management system engines > Online analytical processing engines
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Extraction, transformation and loading
 ACM CCS 2012 Information systems > Information systems applications > Decision support systems > Data analytics
 ACM CCS 2012 Information systems > Information systems applications > Decision support systems > Online analytical processing • Caching e materialização parcial; reporting. Troca de dados (Data Exchange) Warehousing declarativo ACM/IEEE CS 2013 IM/Data Mining > Data Visualization
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Data Exchange • Limpeza de dados: uma taxonomia de problemas de qualidade nos dados; dimensões da qualidade dos dados. ACM/IEEE CS 2013 IM/Data Mining > Data Cleaning ACM CCS 2012 Information systems > Data Management Systems > Information integration > Data Cleaning ACM CCS 2012 Information systems > Information Systems Applications > Data mining > Data cleaning • Detecção de duplicados: algoritmos de emparelhamento de strings e algoritmos de emparelhamento de registos. ACM/IEEE CS 2013 IM/Data Mining > Data Cleaning ACM CCS 2012 Information systems > Data Management Systems > Information integration > Deduplication • Fusão de dados. Mash-ups: motivação, criação e aplicação. 
 ACM/IEEE CS 2013 IM/Data Mining > Data Cleaning 
ACM CCS 2012 Information systems > Data Management Systems > Information integration > Entity Resolution • Proveniência de dados e aplicações ACM/IEEE CS 2013 CN/Data, Information, and Knowledge > Digital content creation/capture and preservation
 ACM CCS 2012 Information systems > Data Management Systems > Data model extensions > Data Provenance

Metodologia de avaliação

A avaliação de Análise e Integração de Dados consistirá num exame final (55% da nota final) e em três mini-projetos (45% da nota final). A nota mínima no exame é 9,5 e a média das notas dos mini-projectos é 9,5. Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota mais baixa entre a nota do exame e a dos projetos e a média obtida tendo em conta as notas do exame e projectos, em função da prestação do aluno nesta prova. Cada mini-projeto conterá, na sua maior parte, problemas práticos, para os quais os alunos deverão encontrar soluções programáticas. Os mini-projetos poderão incluír também questões teóricas. O primeiro mini-projeto abrangerá os tópicos 1-3 do programa; o segundo, os tópicos 4-7 do programa e o terceiro os tópicos 8-10 do programa.

Pré-requisitos

Componente Laboratorial

Princípios Éticos

Componente de Programação e Computação

Componente de Competências Transversais

Bibliografia

Principal

Principles of Data Integration

Anhai Doan, Alon Halevy and Zachary Ives

2012

Morgan Kaufmann


Secundária

Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection (Data-Centric Systems and Applications)

Peter Christen

2012

Springer


The Data Warehouse Toolkit – the complete guide to dimensional modeling

Ralph Kimball and Margy Ross

2002

Wiley