Disciplina Curricular

Análise e Integração de Dados GTI

Mestrado Bolonha em Engenharia Informática e de Computadores - Alameda - MEIC-A 2015

Contextos

Grupo: MEIC-A 2015 > 2º Ciclo > Agrupamentos > Processamento e Análise de Dados

Período:

Grupo: MEIC-A 2015 > 2º Ciclo > Agrupamentos > Sistemas de Informação

Período:

Peso

7.5 (para cálculo da média)

Objectivos

A disciplina de Análise e Integração de Dados pretende ensinar aos alunos os conceitos mais importantes de integração de dados sobre duas perspectivas diferentes: virtual, onde as fontes de dados podem ser consultadas através de uma arquitectura de mediação; e wharehoused, onde um repositório de dados materializado (denominado armazém de dados ou data warehouse) é preenchido com dados provenientes das fontes. Adicionalmente, a disciplina ensinará as técnicas que podem ser utilizadas para explorar a informação: OLAP e reporting numa arquitectura wharehoused, e sistemas de mash-up numa arquitectura virtual. Os processos de integração de dados destinam-se a fornecer, entre outras aplicações, uma visão uniforme sobre um conjunto de fontes de dados autónomas e heterogéneas, facilitando assim o seu acesso para análise e visualização. Os domínios de aplicação são diversificados, desde os sistemas empresariais (sistemas de business intelligence) ao da investigação científica (bioinformática).

Programa

O programa de Análise e Integração de Dados inclui maioritariamente temas de Information Management (IM) do currículo ACM/IEEE CS 2013. Os temas do programa, a seguir apresentados, são etiquetados com tópicos desse currículo e da taxonomia ACM CCS 2012 para clarificação: Principais desafios dos processos de integração de dados; paradigmas de integração de dados. Fontes de dados heterógeneas: gestão e processamento de dados XML. ACM/IEEE CS 2013 IM/Information Management Concepts > Declarative and navigational queries 
 ACM/IEEE CS 2013 IM/Information Management Concepts > Information capture and representation 
 ACM/IEEE CS 2013 IM/Data Modelling > Semi-structured data model
 ACM/IEEE CS 2013 CN/Data, Information, and Knowledge
 ACM CCS 2012 Information systems > Data Management Systems > Data model extensions > Semi-structured data Fontes de dados heterógenas: gestão e processamento de dados provenientes de sensores (stream data). Integração Virtual: wrappers-mediadores; manipulação de interrogações. ACM/IEEE CS 2013 IM/Database Systems > Systems supporting structured and/or stream content
ACM/IEEE CS 2013 CN/Data, Information, and Knowledge
ACM CCS 2012 Information systems > Database management system engines > Stream management ACM CCS 2012 Information systems > Data Management Systems > Information integration > Mediators and data integration ACM CCS 2012 Information systems > Data Management Systems > Information integration > Wrappers (data mining) ACM CCS 2012 Information systems > Data Management Systems > Data model extensions > Data Streams Execução de interrogações usando vistas; descrições de fonte. 
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Mediators and data integration Linguagens de mapeamento de esquemas; global-as-view e local-as-view; mapeamento e emparelhamento de esquemas. 
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Mediators and data integration Wrappers: construção manual e construção automática. ACM CCS 2012 Information systems > Data Management Systems > Information integration > Wrappers (data mining) ACM CCS2012 Information systems> WorldWideWeb>Web mining > Data extraction and integration
 ACM CCS 2012 Information systems > World Wide Web > Web mining > Site Wrapping • Data warehousing: o modelo multi-dimensional; concepção de data warehouses. ACM/IEEE CS 2013 IM/Data Modelling > Spreadsheet models ACM CCS 2012 Information systems > Data Management Systems > Information integration > Data warehouses
 ACM CCS 2012 Information systems > Information systems applications > Decision support systems > Data warehouses • OLAP (Online-Analytical Processing) e ETL (Extraction-Transformation-Loading). 
 ACM/IEEE CS 2013 IM/DataMining > Data Visualization ACM/IEEE CS 2013 IM/Storage and Retrieval > Information Summarization and Visualization
 ACM CCS 2012 Information systems > Data Management Systems > Database management system engines > Online analytical processing engines
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Extraction, transformation and loading
 ACM CCS 2012 Information systems > Information systems applications > Decision support systems > Data analytics
 ACM CCS 2012 Information systems > Information systems applications > Decision support systems > Online analytical processing • Caching e materialização parcial; reporting. Troca de dados (Data Exchange) Warehousing declarativo ACM/IEEE CS 2013 IM/Data Mining > Data Visualization
 ACM CCS 2012 Information systems > Data Management Systems > Information integration > Data Exchange • Limpeza de dados: uma taxonomia de problemas de qualidade nos dados; dimensões da qualidade dos dados. ACM/IEEE CS 2013 IM/Data Mining > Data Cleaning ACM CCS 2012 Information systems > Data Management Systems > Information integration > Data Cleaning ACM CCS 2012 Information systems > Information Systems Applications > Data mining > Data cleaning • Detecção de duplicados: algoritmos de emparelhamento de strings e algoritmos de emparelhamento de registos. ACM/IEEE CS 2013 IM/Data Mining > Data Cleaning ACM CCS 2012 Information systems > Data Management Systems > Information integration > Deduplication • Fusão de dados. Mash-ups: motivação, criação e aplicação. 
 ACM/IEEE CS 2013 IM/Data Mining > Data Cleaning 
ACM CCS 2012 Information systems > Data Management Systems > Information integration > Entity Resolution • Proveniência de dados e aplicações ACM/IEEE CS 2013 CN/Data, Information, and Knowledge > Digital content creation/capture and preservation
 ACM CCS 2012 Information systems > Data Management Systems > Data model extensions > Data Provenance

Metodologia de avaliação

A avaliação de Análise e Integração de Dados consistirá num exame final (55% da nota final) e em três mini-projetos (45% da nota final). A nota mínima no exame é 9,5 e a média das notas dos mini-projectos é 9,5. Os alunos trabalhadores-estudantes poderão optar por um regime de avaliação baseado apenas no exame (100% da nota final). Após a realização do exame, os alunos cuja diferença entre as notas dos mini-projetos (média dos projetos, numa escala entre 0 e 20) e a nota do exame seja superior a 5 valores, terão como nota final a classificação mais baixa entre a nota do exame e a dos projetos. Os alunos nesta situação poderão propor-se a uma avaliação oral, a realizar no final do semestre e após a revisão de provas do segundo exame, podendo a nota final variar entre a nota mais baixa entre a nota do exame e a dos projetos e a média obtida tendo em conta as notas do exame e projectos, em função da prestação do aluno nesta prova. Cada mini-projeto conterá, na sua maior parte, problemas práticos, para os quais os alunos deverão encontrar soluções programáticas. Os mini-projetos poderão incluír também questões teóricas. O primeiro mini-projeto abrangerá os tópicos 1-3 do programa; o segundo, os tópicos 4-7 do programa e o terceiro os tópicos 8-10 do programa.

Disciplinas Execução

2019/2020 - 1º Semestre

2018/2019 - 1ºSemestre

2017/2018 - 1ºSemestre

2016/2017 - 1ºSemestre

2015/2016 - 1º Semestre