Disciplina

Área

Área Científica de Sistemas de Informação > Tecnologias de Sistemas de Informação

Activa nos planos curriculares

MEGE > MEGE > 2º Ciclo > Formação em Armazenamento de Energia > Formação Complementar a Armazenamento de Energia > Opção > Ciência de Dados

MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Sistemas Inteligentes > Ciência de Dados

Min-SMAD 2021 > Min-SMAD 2021 > Ciência de Dados

METI 2021 > METI 2021 > 2º Ciclo > Área Principal > Especializações > Especialização em Ciência de Dados para a Web > Informática > Ciência de Dados

MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Sistemas de Informação > Ciência de Dados

MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Sistemas Computacionais > Ciência de Dados

MEGI 2021 > MEGI 2021 > 2º Ciclo > Área Principal > Área de Especialização > Gestão Financeira > Ciência de Dados

MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Sistemas Computacionais > Ciência de Dados

MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Sistemas de Informação > Ciência de Dados

Nível

A nota final é baseada em três componentes: E: exame, P: projeto e L: laboratórios (opcional) A nota final é dada por 50%E + max(10%L + 40%P, 50%P), sujeita a: E>=9.5 e P>=9.5 Avaliação oral quando P-E>=4

Tipo

Não Estruturante

Regime

Semestral

Carga Horária

1º Semestre

2.0 h/semana

1.5 h/semana

119.0 h/semestre

Objectivos

Os estudantes devem ser capazes de compreender e aplicar o processo de descoberta de informação a dados tabulares e temporais, em todas as suas etapas. Em particular: 1. na exploração de dados através das técnicas básicas de descrição e visualização, 2. na aplicação de técnicas de aprendizagem de modelos de classificação, segmentação e descoberta de padrões, 3. na escolha das abordagens mais adequadas de preparação de dados de modo a melhorar o desempenho das técnicas de aprendizagem de modelos, 4. na avaliação do desempenho dos modelos e no reconhecimento do impacto de cada escolha efetuada. Ortogonalmente, os estudantes deve ser capazes de: 1. Compreender os desafios subjacentes à descoberta de informação em dados complexos e de grande escala, 2. Identificar dados sensíveis e que possam estar sujeitos a restrições de processamento, nomeadamente anonimização, de modo a garantir a preservação da privacidade da entidades.

Programa

1. Ciência de Dados e o processo de descoberta de informação. Avaliação de desempenho: métricas, estratégias, estimação e o princípio da navalha de Occam. 2. Descrição dos dados e princípios de visualização de informação. 3. Preparação de dados: normalização, redução balanceamento. Valores omissos. Engenharia de variáveis. 4. Classificação: cinco tribos. Combinação de modelos. Sobre-aprendizagem. 5. Regressão: linear, logística e não-paramétrica 6. Prospeção de Padrões: regras de associação e padrões sequenciais. 7. Segmentação: algoritmo hierárquicos e baseados em modelos, densidade ou partição. Biclustering. 8. Deteção de anomalias 9. Análise de dados temporais. Preparação, modelação e previsão de séries temporais. 10. Introdução à análise de redes sociais. 11. Descoberta de informação em dados complexos: espacio-temporais, relacionais e multi-dimensionais. 12. Descoberta de informação em dados em grande escala. 13. Implicações Éticas Legais e Sociais dos dados.

Metodologia de avaliação

A nota final é baseada em três componentes: E: exame, P: projeto e L: laboratórios (opcional) A nota final é dada por 50%E + max(10%L + 40%P, 50%P), sujeita a: E>=9.5 e P>=9.5 Avaliação oral quando P-E>=4

Pré-requisitos

Os estudantes devem ser proeficientes em programação e dominar os conceitos básicos de probabilidades e estatística.

Componente Laboratorial

Os laboratórios apresentam um conjunto de tarefas de análise: descrição de dados, classificação Bayesiana e baseada em instâncias, classificação com árvores e combinação de modelos, descoberta de padrões, segmentação e regressão, entre outras. Os alunos (em grupos de 3) devem mostrar gráficos resumidos sobre a análise realizada para cada tarefa, de acordo com um planeamente previamente apresentado pelo grupo.

Princípios Éticos

Todos os membros de um grupo são responsáveis pelo trabalho do grupo. Em qualquer avaliação, todo aluno deve divulgar honestamente qualquer ajuda recebida e fontes usadas. Numa avaliação oral, todo aluno deverá ser capaz de apresentar e responder a perguntas sobre toda a avaliação.

Componente de Programação e Computação

N/A

Componente de Competências Transversais

O curso endereça as Competências de Cidadania Global, no que diz respeito à Ética e Deontologia Profissional, em que as preocupações éticas inerentes ao processo de descoberta de informação são abordadas, e o GDPR é apresentado (avaliado em exame - 1.5% NF). Em termos de Competências Interpessoais e Literacia da Informação e dos Media, o curso endereça os tópicos de Comunicação Escrita e de Estruturação e Formação de Relatórios, respetivamente, através da avaliação do relatório do projeto (1% NF). Em concreto, os tópicos de descrição de dados e visualização de informação, endereçam os elementos e formas mais adequadas de apresentação da informação sob a forma escrita (avaliado em exame 1.5% NF). Quanto a Competências Intrapessoais, são tratados os aspetos relacionados com a Produtividade e Gestão do Tempo (definição do planeamento do projeto e respetiva verificação) e de Tomada de Decisão: discussão das decisões tomadas no projeto, e pela justificação face às alternativas 2.5%NF.

Bibliografia

Principal

Data Mining and Machine Learning: Fundamental Concepts and Algorithms

Mohammed J. Zaki, Wagner Meira, Jr.

2020

ISBN: 978-1108473989


Forecasting: Principles and Practice

Rob J Hyndman and George Athanasopoulos

2021

3rd Edition OTexts: Melbourne, Australia


GDPR - General Data Protection Regulation

?

2016

Regulation (EU) 2016/679 of the European Parliament and of the Council


Secundária

Data Mining: Concepts and Techniques

Jiawei Han, Micheline Kamber and Jian Pei

2011

Morgan Kaufmann


The Master Algorithm How the Quest for the Ultimate Learning Machine Will Remake Our World

Pedro Domingos

2016

ISBN - 13:9780465061921


The Top Ten Algorithms in Data Mining

Xindong Wu and Vipin Kumar

2009

ISBN: 9781420089646