Dissertação

Feature Engineering through the Exploration of Domain Knowledge EVALUATED

A diversificação de áreas onde a ciência de dados está presente está a levar a uma maior necessidade de cientistas qualificados. Para contrariar isto, tem existido cada vez mais pesquisa na automatização deste fluxo de trabalho, nomeadamente com o desenvolvimento de estruturas de Machine Learning automático (AutoML). Apesar destas estruturas trazerem grandes avanços em alguns aspetos do processo de ciência de dados, a fase de preparação dos dados continua a enfrentar grandes dificuldades. Este trabalho propõe um algoritmo que automatiza os passos de preparação e gera variáveis usando conhecimento de domínio representado em diagramas entidade-relação, também definindo um conjunto de operadores que podem ser aplicados a tipos distintos de dados. O trabalho é validado num caso de estudo composto por vários conjuntos de dados com modelos ER, mostrando melhorias em performance comparado com ferramentas AutoML como auto-sklearn, com tempos de processamento inferiores.
Engenharia de Variáveis, Geração de Variáveis, AutoML, Conhecimento de Domínio, Diagramas Entidade-Relação

julho 27, 2022, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Claudia Martins Antunes

Departamento de Engenharia Informática (DEI)

Professor Associado