Dissertação

Automatic Nativeness Assessment EVALUATED

O acesso a grandes quantidades de dados é um desafio para as empresas que desenvolvem serviçosbaseados em IA. OCrowdsourcingapresenta-se como uma solução para esta necessidade crescentede dados, através da recolha e distribuição de dados usando um grande conjunto de colaboradoreshumanos. Contudo, existem obstáculos: a dificuldade de obter acrowdcerta e de manter a qualidadedos dados. No que diz respeito à fala, um aspecto crítico da qualidade é verificação dos participan-tes como falantes nativos de uma língua específica. Esta tese investiga a utilização de soluções deClassificação Automática de Falantes Nativos para resolver este problema, integremos um classificadordenativenesssensível à variante nopipelinede dados de fala para português (variantes europeias ebrasileiras) e inglês (americano, britânico e indiano). Ao classificar as gravações individuais de acordocom a suanativeness, é possível descartar automaticamente trabalhos que não cumprem as normase como impedir que certos contribuidores continuem a participar na colecção. Nesta tese, são testa-das três diferentes estruturas baseadas emembeddings:i-vector,x-vector, eh-vector. Os resultadosmostram que o sistema proposto baseado emx-vectorsupera o sistema de base com uma melhoriarelativa de8%.
Crowdsourcing, Aprendizagem Profunda, x-vector

Janeiro 29, 2021, 8:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Alberto Abad Gareta

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

João Freitas

DefinedCrowd