Dissertação

Boosting Machine Learning with Weakly Consistent Collectives EVALUATED

“Stale Synchronous Parallel” (SSP) é um modelo de sincronização proposto para acelerar algoritmos iterativos e convergentes de “Machine Learning” em ambientes distribuídos. Neste modelo, a sincronização entre processos é reduzida ao permitir que processos observem diferentes soluções intermédias, que podem estar um número limitado de iterações desatualizadas (“bounded staleness”). Com a chegada de “Remote Direct Memory Access” (RDMA), a comunicação “one-sided” tornou se uma alternativa popular a comunicação “two-sided” em ambientes assíncronos. Embora o SSP seja inerentemente assíncrono, tanto quanto sabemos, não existem soluções baseadas em SSP que usem comunicação “one-sided”. Nesta tese criámos uma solução para o SSP que benificia de RDMA para comunicação “one-sided”, e oferecêmos-la a programadores através de uma nova abstração chamada de coletiva fracamente consistente, desenvolvida usando GASPI. Para a criação desta coletiva, desenhámos e implementámos duas soluções diferentes. Numa delas, adaptámos algoritmos existentes para coletivas síncronas “allreduce” de forma a suportar SSP, e para a outra, baseámo-nos nas ideias da arquitetura do “Parameter Server”, e executámos “Parameter Server shards” diretamente nos nós que realizavam a coletiva. As nossas soluções foram avaliadas no supercomputador MareNostrum4, usando até 64 nós, e avaliadas sobre duas implementações do algoritmo “Matrix Factorization”, sendo uma delas uma implementação nossa, e a outra uma implementação existente do mundo real. Usando a nossa coletiva proposta fomos capazes de reduzir o tempo de execução da coletiva em 2.5x quando comparado com a coletiva “allreduce” do MPI, e a nova primitiva demonstrou um impacto mínimo na velocidade de convergência dos algoritmos testados.
Atrasado Síncrono Paralelo, Acesso direto a memória remota, Computação distribuída, Aprendizagem automática

janeiro 21, 2021, 10:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Rodrigo Seromenho Miragaia Rodrigues

Departamento de Engenharia Informática (DEI)

Professor Catedrático

ORIENTADOR

João Pedro Faria Mendonça Barreto

Departamento de Engenharia Informática (DEI)

Professor Auxiliar