FenixEdu™

Dissertação

{en_GB=Neural Methods for Biomedical Synonym Discovery and Concept Alignment} {} EVALUATED

Detalhes: {pt=No domínio biomédico, a identificação de conceitos sinónimos é altamente desafiante devido à heterogeneidade de vocabulário, às variações lexicais, e à cobertura não uniforme de terminologias médicas padronizadas. Este trabalho aborda este desafio em particular, argumentando que o alinhamento de conceitos pode ser feito através da semelhança aproximada de strings utilizando redes neuronais. Em particular, foram aproveitados estudos recentes que avaliaram métodos de correspondência de strings em áreas não biomédicas como, por exemplo, a utilização de redes neuronais recorrentes bidireccionais ou modelos \textit{Transformer} para codificar e combinar pares de conceitos. Em particular, foram treinados modelos com dados biomédicos recolhidos da Wikidata, e testados em 15 conjuntos de dados (datasets) construídos a partir de diferentes ontologias biomédicas, representando domínios específicos. Os nossos testes avaliaram aspetos tais como a influência de codificações posicionais enquanto input destas redes, o tamanho do dataset de treino, e a contribuição do ajuste fino do modelo (fine-tuning) com dados específicos de cada domínio. Os resultados experimentais mostram que as redes neuronais tiveram um desempenho consistentemente melhor do que as abordagens tradicionais de semelhança de strings, particularmente com maiores quantidades de dados de treino. Na maioria dos testes, os modelos baseados no modelo Transformer também tiveram melhor desempenho do que os modelos baseados em redes neuronais recorrentes. , en=In the biomedical domain, the identification of synonymous concepts is highly challenging, due to vocabulary heterogeneity, lexical variations, and non-uniform coverage across standardized terminologies. This work tackles this particular challenge, arguing that concept alignment can be made through approximate string similarity using deep neural networks. In particular, this work extends recent studies that assessed string-matching methods in non-biomedical fields, i.e. using bi-directional recurrent neural networks or transformer models to encode and match pairs of strings. The models were trained with biomedical data collected from Wikidata, and tested on 15 datasets built from different biomedical ontologies, representing specific domains. The tests assessed aspects such as the influence of positional encodings together with the inputs, the size of the training dataset or the contribution of model fine-tuning with specific in-domain data. The experimental results show that deep neural networks consistently performed better than traditional string similarity approaches, particularly with larger amounts of training data. In most of the tests, models based on Transformers also performed better than models based on recurrent neural networks.}
Keywords: {pt=Alinhamento de conceitos biomédicos, Correspondência de strings, Aprendizagem supervisionada, Redes Neuronis Recorrentes, Modelos Transformer, en=Biomedical Concept Alignment, String-Matching, Supervised Machine Learning, Recurrent Neural Networks, Transformer Networks}

Discussão: novembro 25, 2021, 10:0