Programa

Ciência de Dados

Mestrado Bolonha em Engenharia Informática e de Computadores - Alameda

Mestrado Bolonha em Engenharia Informática e de Computadores - Taguspark

Programa

1. Ciência de Dados. O que é a Ciência de Dados? A sua natureza pluridisciplinar. Engenharia de Dados vs. Ciência de Dados. O papel do Cientista de Dados. 2. O processo de descoberta de informação. Formulação de questões. Análise exploratória de Dados. Panoramas do pré-processamento, avaliação (a navalha de Occam) e visualização. Documentação do processo 3. Pré-processamento. Normalização (data scaling and centering) e redução de dados (PCA, SVD, DFT, wavelets, SAX), balanceamento (reamostragem e SMOTE), discretização (largura e por frequência, taxonomias), rotulagem 4. Prospeção de Padrões. Regras de Associação - algoritmo apriori. Padrões fechados e máximos. Métricas de avaliação: suporte, confiança, correlação e índice de Jaccard 5. Segmentação. Algoritmos: K-means, hierárquicos. Avaliação: SSE (MSE), coeficiente de silhueta e índices de Dunn e DB. 6. Classificação e Regressão. Aprendizagem supervisionada: sobre-aprendizagem (overfitting), estratégias de treino, validação cruzada. Regressão linear e logística. Algoritmos de classificação: KNN, Naive Bayes, árvores de decisão: métricas e poda. Combinação de modelos: AdaBoost, Random forests. Avaliação: Métricas (precisão, sensibilidade e especificidade, f-measure, ROC area, matriz de confusão); gráficos ROC e de Lift. 7. Deteção de valores e padrões anómalos. 8. Prospeção de dados com preservação de privacidade 9. Prospeção de dados em larga escala. Paralelização: map-reduce, algoritmos em linha. Indexação: LSH, Multidimensional. 10. Estudos de Casos / Tópicos Avançados. Séries temporais e análise de sequências. Análise de Redes Sociais; prospeção de grafos. Sistemas de recomendação. Prospeção de texto e opiniões. Prospeção de processos. Processamento e prospeção de fluxos de dados. Biologia computacional.