Dissertação

Detecting Speech-Laugh: Challenges and Implications for Automatic Speech Recognition EVALUATED

A "fala com riso", um evento paralinguístico que combina riso e fala, possui propriedades únicas. Existem poucas pesquisas sobre sua detecção e impacto nos sistemas automáticos de reconhecimento de fala (ASR). Esta tese aborda essa lacuna por meio de dois estudos. O primeiro estende um detector de riso binário para incluir a "fala com riso" como uma classe, alcançando F1-scores de 0,341 para a detecção de "fala com riso" e 0,555 para a detecção de riso. Variações nos esquemas de anotação, métricas de avaliação e contextos culturais desafiam a detecção precisa. O segundo estudo mostra que a introdução de "fala com riso" e segmentos de riso degrada o desempenho do sistema ASR, aumentando a Taxa de Erro de Palavras de 2,71% a 10,4%. A detecção precisa da "fala com riso" pode aprimorar os sistemas ASR e de processamento de fala, melhorando a compreensão das emoções e a qualidade geral do reconhecimento de fala.
Fala com riso, riso, reconhecimento automático de fala, normas de transcrição, detecção de eventos sonoros

junho 5, 2023, 14:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Khiet Truong

University of Twente

Professor Associado

ORIENTADOR

Isabel Maria Martins Trancoso

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professora Catedrática Aposentada