Dissertação

{en_GB=Improving Acoustic Features for Structural Segmentation of Music} {} EVALUATED

{pt=Segmentação estrutural de música é a tarefa de identificar as fronteiras temporais de cada segmento estrutural presente numa música e atribuir a cada um destes uma etiqueta, garantindo que segmentos repetidos contêm a mesma etiqueta. Apesar de vários algoritmos de segmentação estrutural terem sido desenvolvidos nos últimos anos, pouca atenção foi dada aos modelos de extração de features subjacentes, especialmente à combinação de múlltiplas features. O nosso foco principal são as features, enquanto usamos um algoritmo de segmentação disponível na literatura. Propomos a criação de dois embeddings, usando Generalized Canonical Cor-relation Analysis (GCCA) e identity vectors (i-vectors), para serem usados como vectores de ”features” de entrada para o algoritmo de segmentação estrutural. Resultados provenientes de ambas as abordagens revelam melhorias relativamente a algumas das métricas de avaliação, quando comparados com três modelos de features padrão, nomeadamente Mel Frequency Cepstral Coefficients (MFCC), Constant-Q Transform (CQT) e Chromagram (Chroma)., en=Structural segmentation of music is the task of identifying the temporal boundaries of each structural segment within a song and assigning these a label, using the same label for repeated segments. Although several structural segmentation algorithms have been developed in the last two decades, not much attention has been given to the underlying feature extraction model, specially to the combination of multiple features. We are mainly focused on the feature extraction model, while making use of an already available segmentation algorithm. We propose the creation of two embeddings, using Generalized Canonical Correlation Analysis (GCCA) and identity vectors (i-vectors), to be used as the input feature vectors for the structural segmentation algorithm. Results from both approaches reveal improvements regarding some of the evaluation metrics, when compared with three standard feature models, namely Mel Frequency Cepstral Coefficients (MFCC), Constant-Q Transform (CQT) and Chromagram (Chroma).}
{pt=Segmentação estrutural de música, Modelos de extração de features, Segmentos estruturais, i-vectors, Correlação Canónica, en=Structural segmentation of music, Feature extraction models, Structural segments, i-vectors, Canonical Correlation Analysis}

Novembro 13, 2019, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

David Manuel Martins de Matos

Departamento de Engenharia Informática (DEI)

Professor Auxiliar