Disciplina
Ciência de Dados
Área
Área Científica de Sistemas de Informação > Tecnologias de Sistemas de Informação
Activa nos planos curriculares
MEGE > MEGE > 2º Ciclo > Formação em Armazenamento de Energia > Formação Complementar a Armazenamento de Energia > Opção > Ciência de Dados
MEIC-T 2018 > MEIC-T 2018 > 2º Ciclo > Agrupamentos > Sistemas Inteligentes > Ciência de Dados
Min-SMAD 2021 > Min-SMAD 2021 > Ciência de Dados
METI 2021 > METI 2021 > 2º Ciclo > Área Principal > Especializações > Especialização em Ciência de Dados para a Web > Informática > Ciência de Dados
MEIC-T 2021 > MEIC-T 2021 > 2º Ciclo > Área Principal > Agrupamentos > Sistemas de Informação > Ciência de Dados
MEIC-A 2015 > MEIC-A 2015 > 2º Ciclo > Agrupamentos > Sistemas Computacionais > Ciência de Dados
MEGI 2021 > MEGI 2021 > 2º Ciclo > Área Principal > Área de Especialização > Gestão Financeira > Ciência de Dados
MEIC-T 2015 > MEIC-T 2015 > 2º Ciclo > Agrupamentos > Sistemas Computacionais > Ciência de Dados
MEIC-A 2021 > MEIC-A 2021 > 2º Ciclo > Area Principal > Agrupamentos > Sistemas de Informação > Ciência de Dados
Nível
A avaliação consistirá num exame final (50% da nota final, mínimo de 9.5v) e um projeto prático desenvolvido ao longo do semestre (50% da nota final, mínimo de 9.5v). Após a realização do exame, alunos cuja diferença entre as notas do projeto do exame seja superior a 5 valores (numa escala entre 0 e 20), serão convidados a realizar uma avaliação oral, podendo a nota final variar entre a nota do exame e a do projeto, em função da prestação do aluno nesta prova.
Tipo
Não Estruturante
Regime
Semestral
Carga Horária
1º Semestre
3.0 h/semana
1.5 h/semana
147.0 h/semestre
Objectivos
Os alunos deverão ser capazes de: • Compreender os conceitos de estatística e de tratamento de dados por forma a serem usados em processamentos complexos de informação. • Conceber sistemas para automatização de processos de descoberta de conhecimento e sua comunicação empregando em cada etapa do processamento os algoritmos e metodologias de validação apropriados. • Conhecer as técnicas de reconhecimento de padrões frequentes e dados atípicos (outliers) em conjuntos de dados. • Identificar os dados sensíveis que podem ter restrições de tratamento e as técnicas de anonimização de dados que permitem a sua análise com preservação da privacidade. • Realizar tratamentos de dados em grande escala.
Programa
1. Ciência de Dados. O que é a Ciência de Dados? A sua natureza pluridisciplinar. Engenharia de Dados vs. Ciência de Dados. O papel do Cientista de Dados. 2. O processo de descoberta de informação. Formulação de questões. Análise exploratória de Dados. Panoramas do pré-processamento, avaliação (a navalha de Occam) e visualização. Documentação do processo 3. Pré-processamento. Normalização (data scaling and centering) e redução de dados (PCA, SVD, DFT, wavelets, SAX), balanceamento (reamostragem e SMOTE), discretização (largura e por frequência, taxonomias), rotulagem 4. Prospeção de Padrões. Regras de Associação - algoritmo apriori. Padrões fechados e máximos. Métricas de avaliação: suporte, confiança, correlação e índice de Jaccard 5. Segmentação. Algoritmos: K-means, hierárquicos. Avaliação: SSE (MSE), coeficiente de silhueta e índices de Dunn e DB. 6. Classificação e Regressão. Aprendizagem supervisionada: sobre-aprendizagem (overfitting), estratégias de treino, validação cruzada. Regressão linear e logística. Algoritmos de classificação: KNN, Naive Bayes, árvores de decisão: métricas e poda. Combinação de modelos: AdaBoost, Random forests. Avaliação: Métricas (precisão, sensibilidade e especificidade, f-measure, ROC area, matriz de confusão); gráficos ROC e de Lift. 7. Deteção de valores e padrões anómalos. 8. Prospeção de dados com preservação de privacidade 9. Prospeção de dados em larga escala. Paralelização: map-reduce, algoritmos em linha. Indexação: LSH, Multidimensional. 10. Estudos de Casos / Tópicos Avançados. Séries temporais e análise de sequências. Análise de Redes Sociais; prospeção de grafos. Sistemas de recomendação. Prospeção de texto e opiniões. Prospeção de processos. Processamento e prospeção de fluxos de dados. Biologia computacional.
Metodologia de avaliação
A avaliação consistirá num exame final (50% da nota final, mínimo de 9.5v) e um projeto prático desenvolvido ao longo do semestre (50% da nota final, mínimo de 9.5v). Após a realização do exame, alunos cuja diferença entre as notas do projeto do exame seja superior a 5 valores (numa escala entre 0 e 20), serão convidados a realizar uma avaliação oral, podendo a nota final variar entre a nota do exame e a do projeto, em função da prestação do aluno nesta prova.
Pré-requisitos
Componente Laboratorial
Princípios Éticos
Componente de Programação e Computação
Componente de Competências Transversais
Bibliografia
Principal
Data Mining and Analysis: Fundamental Concepts and Algorithms
Mohammed J. Zaki, Wagner Meira, Jr.
Secundária
Mining of Massive Datasets, 2nd Edition
Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman
Cambridge University Press New York, NY, USA