Disciplina Curricular

Ciência de Dados CDadosi

Mestrado Bolonha em Engenharia Informática e de Computadores - Alameda - MEIC-A 2015

Contextos

Grupo: MEIC-A 2015 > 2º Ciclo > Agrupamentos > Sistemas Computacionais

Período:

Grupo: MEIC-A 2015 > 2º Ciclo > Agrupamentos > Bioinformática e Biologia Computacional

Período:

Grupo: MEIC-A 2015 > 2º Ciclo > Agrupamentos > Processamento e Análise de Dados

Período:

Grupo: MEIC-A 2015 > 2º Ciclo > Agrupamentos > Sistemas de Informação

Período:

Grupo: MEIC-A 2015 > 2º Ciclo > Agrupamentos > Sistemas Inteligentes

Período:

Peso

7.5 (para cálculo da média)

Objectivos

Os alunos deverão ser capazes de: • Compreender os conceitos de estatística e de tratamento de dados por forma a serem usados em processamentos complexos de informação. • Conceber sistemas para automatização de processos de descoberta de conhecimento e sua comunicação empregando em cada etapa do processamento os algoritmos e metodologias de validação apropriados. • Conhecer as técnicas de reconhecimento de padrões frequentes e dados atípicos (outliers) em conjuntos de dados. • Identificar os dados sensíveis que podem ter restrições de tratamento e as técnicas de anonimização de dados que permitem a sua análise com preservação da privacidade. • Realizar tratamentos de dados em grande escala.

Programa

1. Ciência de Dados. O que é a Ciência de Dados? A sua natureza pluridisciplinar. Engenharia de Dados vs. Ciência de Dados. O papel do Cientista de Dados. 2. O processo de descoberta de informação. Formulação de questões. Análise exploratória de Dados. Panoramas do pré-processamento, avaliação (a navalha de Occam) e visualização. Documentação do processo 3. Pré-processamento. Normalização (data scaling and centering) e redução de dados (PCA, SVD, DFT, wavelets, SAX), balanceamento (reamostragem e SMOTE), discretização (largura e por frequência, taxonomias), rotulagem 4. Prospeção de Padrões. Regras de Associação - algoritmo apriori. Padrões fechados e máximos. Métricas de avaliação: suporte, confiança, correlação e índice de Jaccard 5. Segmentação. Algoritmos: K-means, hierárquicos. Avaliação: SSE (MSE), coeficiente de silhueta e índices de Dunn e DB. 6. Classificação e Regressão. Aprendizagem supervisionada: sobre-aprendizagem (overfitting), estratégias de treino, validação cruzada. Regressão linear e logística. Algoritmos de classificação: KNN, Naive Bayes, árvores de decisão: métricas e poda. Combinação de modelos: AdaBoost, Random forests. Avaliação: Métricas (precisão, sensibilidade e especificidade, f-measure, ROC area, matriz de confusão); gráficos ROC e de Lift. 7. Deteção de valores e padrões anómalos. 8. Prospeção de dados com preservação de privacidade 9. Prospeção de dados em larga escala. Paralelização: map-reduce, algoritmos em linha. Indexação: LSH, Multidimensional. 10. Estudos de Casos / Tópicos Avançados. Séries temporais e análise de sequências. Análise de Redes Sociais; prospeção de grafos. Sistemas de recomendação. Prospeção de texto e opiniões. Prospeção de processos. Processamento e prospeção de fluxos de dados. Biologia computacional.

Metodologia de avaliação

A avaliação consistirá num exame final (50% da nota final, mínimo de 9.5v) e um projeto prático desenvolvido ao longo do semestre (50% da nota final, mínimo de 9.5v). Após a realização do exame, alunos cuja diferença entre as notas do projeto do exame seja superior a 5 valores (numa escala entre 0 e 20), serão convidados a realizar uma avaliação oral, podendo a nota final variar entre a nota do exame e a do projeto, em função da prestação do aluno nesta prova.

Disciplinas Execução

2019/2020 - 1º Semestre

2018/2019 - 1ºSemestre