Dissertação

{en_GB=Unveiling Interpretable Behavior In Two-Way High-Dimensional Clinical Data} {} EVALUATED

{pt=O desenvolvimento de métodos de aprendizagem automática e a sua adequação a problemas clínicos têm possibilitado a criação de novas abordagens terapêuticas que fazem perspetivar a aplicação de soluções de engenharia para modelar integradamente sistemas fisiológicos multi-escalares, fornecendo conhecimento profundo e abrangente do funcionamento de sistemas biológicos. Os sistemas adaptativos de apoio à decisão clínica para a medicina personalizada sofrem de um problema de elevada dimensionalidade, já que contemplam o ajuste de muitos parâmetros. Este relatório apresenta o estudo teórico e a exploração prática de técnicas de aprendizagem não supervisionada, bem como a revisão de metodologias de agrupamento capazes de lidar com dados de grande dimensão. As qualidades das abordagens tandem tradicionais são debatidas através da avaliação do seu desempenho em dados sintéticos e reais. A pesquisa levada a cabo abre espaço à criação de novas estratégias integradas que conjugam a redução do espaço de variáveis com a estratificação dos objetos para maximizar a interpretabilidade dos dados e facilitar a sua análise. Neste trabalho um modelo difuso entropicamente regularizado é incorporado numa metodologia de clustering e análise de componentes principais disjuntos e é comparado com outras metodologias de última geração, mostrando trazer mais intuição à apreciação dos resultados fruto da palete de cores atribuída às observações com base nos graus de pertença aos respetivos grupos. É também apresentada uma nova ferramenta hierárquica capaz de desvendar ciclicamente informação oculta nas camadas mais profundas dos dados através do rearranjo dos subespaços de variáveis para reavaliação de clusters., en=The development of machine learning methods and their adaptation to clinical problems have enabled the creation of new therapeutic approaches that lead to the application of engineering solutions to model multi-scalar physiological systems in an integrated way, providing deep and comprehensive knowledge of how biological systems work. Adaptive clinical decision support systems for precision medicine suffer from a problem of high dimensionality, since they contemplate the adjustment of many parameters. This report presents the theoretical study and the practical exploration of unsupervised learning techniques of features, as well as the revision of clustering methodologies capable of handling large data. The qualities of traditional tandem approaches are debated by evaluating their performance in synthetic and real data. The research carried out opens space for the creation of new integrated strategies that combine the reduction of the space of variables with the stratification of the objects to maximize the interpretability of the data and to facilitate their analysis. In this work an entropically regularized fuzzy model is incorporated into a clustering and disjoint principal component analysis method and is successfully matched against other state of the art methodologies, showing improved intuition in the appreciation of the results due to the color palette attributed to the observations based on their degrees of belonging to the respective groups. Also presented in this report is a new hierarchical tool capable of cyclically uncover hidden information in the deeper layers of the data by rearranging subspace data for re-evaluation of clusters.}
{pt=Aprendizagem automática, Estatística multivariada, Dados de alta dimensionalidade, Análise difusa de agrupamentos, Análise de Componentes Principais., en=Machine learning, Multivariate statistics, High-dimensional data, Fuzzy cluster analysis, Principal Component Analysis.}

Novembro 23, 2018, 14:0

Orientação

ORIENTADOR

Alexandra Sofia Martins de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar

ORIENTADOR

Susana de Almeida Mendes Vinga Martins

Departamento de Bioengenharia (DBE)

Professor Associado