Dissertação

{en_GB=OntoC4S framework: constraint based framework for sequential pattern mining} {} EVALUATED

{pt=Atualmente, a informação é omnipresente e todas as pessoas lhe podem aceder. É caracterizada pela sua diversidade e heterogeneidade. Como consequência, existe o desafio de obter informação útil de toda esta informação. A área interdisciplinar da data mining surge como um processo computacional de extração de informação útil de toda esta informação e a sua transformação numa estrutura adequada para a tomada de decisões. O pattern mining é um subtópico para a obtenção de conhecimento na forma de padrões. As restrições foram identificadas como uma ferramenta para a orientação dos algoritmos de pattern mining dentro das expectativas dos utilizadores mas até hoje a sua expressividade tem sido limitada pelas ferramentas utilizadas na sua definição. As ontologias foram identificadas como um caminho para a representação de conhecimento de domínio. Neste trabalho, desenvolveu-se uma framework baseada numa ontologia para o processo de sequential pattern mining, a framework OntoC4S, na definição de conhecimento de domínio através das especificações do utilizador. É capaz de representar eventos sequenciais e paralelos, de modo a possibilitar a definição de restrições sobre dados sequenciais. O objetivo é permitir a representação de restrições mais expressivas quando comparada com outras representações e alargar a possibilidade de integração de conhecimento ao mesmo tempo que otimiza os algoritmos atuais. Os resultados mostram que a framework atinge os objetivos enquanto mantém a performance dos algoritmos sem restrições. Este trabalho está inserido no projeto D2PM onde uma framework para a orientação dos algoritmos de pattern mining é o objetivo a atingir., en=Nowadays, data is everywhere and everyone can access it. This data is characterized by its diversification and heterogeneity. As consequence, the challenge is to be able of getting useful information of all that data. The interdisciplinary field of data mining appears as a computational process of extracting information from data and transform it into an understandable structure to be applied. Pattern mining is a subfield which tries to extract relevant knowledge in the form of patterns from datasets. Constraints are an identified way of focusing the pattern mining algorithms to the expectations of the users but until now their importance is very limited by the expression power of the tools used to define them. Ontologies were identified as a way of representing knowledge in a more interesting way. In this work, we developed an ontology based framework for the sequential pattern mining process, the OntoC4S framework, to introduce domain knowledge specified by the user’s input. This framework is able to represent sequential and concurrent events, in order to define constraints over sequential data. The goal of this work is to enable the representation of more expressive constraints when compared with other constraints’ representation and to obtain a broader way of embody user knowledge while optimizing the current algorithms. The results show that the framework achieves the proposed goals while keeping the performance of unconstraint algorithms. This work is done within the D2PM project where a framework for guiding the pattern mining process is the goal to be accomplished.}
{pt=Data Mining, Pattern Mining, Restrições, Ontologia, OntoC4S framework, SeqD2PrefixGrowth, en=Data Mining, Pattern Mining, Constraints, Ontology, OntoC4S framework, SeqD2PrefixGrowth}

outubro 31, 2014, 15:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Claudia Martins Antunes

Departamento de Engenharia Informática (DEI)

Professor Auxiliar