Disciplina

Área

Área Científica de Sistemas de Informação > Tecnologias de Sistemas de Informação

Activa nos planos curriculares

MEGE > MEGE > 2º Ciclo > Formação em Armazenamento de Energia > Formação Complementar a Armazenamento de Energia > Opção > Ciência de Dados

MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Sistemas Inteligentes > Ciência de Dados

Min-SMAD 2021 > Min-SMAD 2021 > Ciência de Dados

METI 2021 > METI 2021 > 2º Ciclo > Área Principal > Especializações > Especialização em Ciência de Dados para a Web > Informática > Ciência de Dados

MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Sistemas de Informação > Ciência de Dados

MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Sistemas Computacionais > Ciência de Dados

MEGI 2021 > MEGI 2021 > 2º Ciclo > Área Principal > Área de Especialização > Gestão Financeira > Ciência de Dados

MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Sistemas Computacionais > Ciência de Dados

MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Sistemas de Informação > Ciência de Dados

Nível

A avaliação consistirá num exame final (50% da nota final, mínimo de 9.5v) e um projeto prático desenvolvido ao longo do semestre (50% da nota final, mínimo de 9.5v). Após a realização do exame, alunos cuja diferença entre as notas do projeto do exame seja superior a 5 valores (numa escala entre 0 e 20), serão convidados a realizar uma avaliação oral, podendo a nota final variar entre a nota do exame e a do projeto, em função da prestação do aluno nesta prova.

Tipo

Não Estruturante

Regime

Semestral

Carga Horária

1º Semestre

3.0 h/semana

1.5 h/semana

147.0 h/semestre

Objectivos

Os alunos deverão ser capazes de: • Compreender os conceitos de estatística e de tratamento de dados por forma a serem usados em processamentos complexos de informação. • Conceber sistemas para automatização de processos de descoberta de conhecimento e sua comunicação empregando em cada etapa do processamento os algoritmos e metodologias de validação apropriados. • Conhecer as técnicas de reconhecimento de padrões frequentes e dados atípicos (outliers) em conjuntos de dados. • Identificar os dados sensíveis que podem ter restrições de tratamento e as técnicas de anonimização de dados que permitem a sua análise com preservação da privacidade. • Realizar tratamentos de dados em grande escala.

Programa

1. Ciência de Dados. O que é a Ciência de Dados? A sua natureza pluridisciplinar. Engenharia de Dados vs. Ciência de Dados. O papel do Cientista de Dados. 2. O processo de descoberta de informação. Formulação de questões. Análise exploratória de Dados. Panoramas do pré-processamento, avaliação (a navalha de Occam) e visualização. Documentação do processo 3. Pré-processamento. Normalização (data scaling and centering) e redução de dados (PCA, SVD, DFT, wavelets, SAX), balanceamento (reamostragem e SMOTE), discretização (largura e por frequência, taxonomias), rotulagem 4. Prospeção de Padrões. Regras de Associação - algoritmo apriori. Padrões fechados e máximos. Métricas de avaliação: suporte, confiança, correlação e índice de Jaccard 5. Segmentação. Algoritmos: K-means, hierárquicos. Avaliação: SSE (MSE), coeficiente de silhueta e índices de Dunn e DB. 6. Classificação e Regressão. Aprendizagem supervisionada: sobre-aprendizagem (overfitting), estratégias de treino, validação cruzada. Regressão linear e logística. Algoritmos de classificação: KNN, Naive Bayes, árvores de decisão: métricas e poda. Combinação de modelos: AdaBoost, Random forests. Avaliação: Métricas (precisão, sensibilidade e especificidade, f-measure, ROC area, matriz de confusão); gráficos ROC e de Lift. 7. Deteção de valores e padrões anómalos. 8. Prospeção de dados com preservação de privacidade 9. Prospeção de dados em larga escala. Paralelização: map-reduce, algoritmos em linha. Indexação: LSH, Multidimensional. 10. Estudos de Casos / Tópicos Avançados. Séries temporais e análise de sequências. Análise de Redes Sociais; prospeção de grafos. Sistemas de recomendação. Prospeção de texto e opiniões. Prospeção de processos. Processamento e prospeção de fluxos de dados. Biologia computacional.

Metodologia de avaliação

A avaliação consistirá num exame final (50% da nota final, mínimo de 9.5v) e um projeto prático desenvolvido ao longo do semestre (50% da nota final, mínimo de 9.5v). Após a realização do exame, alunos cuja diferença entre as notas do projeto do exame seja superior a 5 valores (numa escala entre 0 e 20), serão convidados a realizar uma avaliação oral, podendo a nota final variar entre a nota do exame e a do projeto, em função da prestação do aluno nesta prova.

Pré-requisitos

Componente Laboratorial

Princípios Éticos

Componente de Programação e Computação

Componente de Competências Transversais

Bibliografia

Principal

Data Mining and Analysis: Fundamental Concepts and Algorithms

Mohammed J. Zaki, Wagner Meira, Jr.

2014

Cambridge University Press


Secundária

Mining of Massive Datasets, 2nd Edition

Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman

2014

Cambridge University Press New York, NY, USA