Dissertação

Classification On The Clouds Using MapReduce EVALUATED

Na última década empresas acumularam grandes quantidades de dados, e têm vindo a tirar proveito dessas bases de dados usando algoritmos de data mining e machine learning (DM-ML). No entanto devido ao recente crescimento exponencial do tamanho das bases de dados computadores individuais já não conseguem ligar com dados com esta dimensão, por isso novas soluções são precisas. Computação paralela e distribuída parece oferecer a solução, no entanto adaptar algoritmos de DM-ML para que estes funcionem num ambiente distribuído e paralelo não é uma tarefa trivial. Recentemente um novo modelo de programação chamado MapReduce foi proposto. Este modelo permite a implementação de algoritmos e tarefas de processamento num ambiente distribuído e paralelo de forma fácil. Com este trabalho vamos mostrar como implementar um classificador, chamado MRID4, usando o modelo de programação MapReduce. Este classificador é fortemente baseado no algoritmo ID3 mas também é capaz de lidar com atributos contínuos da mesma forma que o algoritmo C4.5. Esta implementação não é trivial, visto que a abstracção que o MapReduce providencia não é completamente transparente. Isto obriga o programador a ter que se preocupar com aspectos provenientes de um ambiente distribuído, aspectos esses que vão desde como implementar um algoritmo de divisão e conquista que funciona de forma eficiente sobre o MapReduce, até, como garantir que os dados que são computados na função map são, de alguma forma, agregáveis no reduce e que o resultado final corresponde ao mesmo que se o algoritmo fosse corrido de forma sequencial num só computador.
Data mining, MapReduce, classificação, Hadoop, ID3

Novembro 6, 2014, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Claudia Martins Antunes

Departamento de Engenharia Informática (DEI)

Professor Auxiliar