Dissertação

{en_GB=Approximate String Matching and Duplicate Detection in the Deep Learning Era} {} EVALUATED

{pt=Duplicate detection é o processo de identificação de pares de atributos/registos que se referem ao mesmo objeto do mundo real. Os métodos existentes para detectar atributos duplicados passam por técnicas baseadas em distância de edição que usam métodos de similaridade entre strings, técnicas fonéticas que combinam strings baseadas na maneira como estas soam ou técnicas híbridas. No entanto, estes métodos dependem de sub-strings comuns para estabelecer semelhança e, com frequência, não capturam substituições de caracteres devido a transliterações ou a escrita em idiomas diferentes. Este trabalho segue a proposta de trabalhos anteriores em relação a string matching usando redes neuronais. Considera arquiteturas neuronais mais avançadas integrando shortcut connections, mecanismos de self-attention, hard-allignment attention entre as strings a comparar ou o uso de max-pooling sobre a sequência de output das camadas recorrentes da rede neuronal, considerando uma só layer RNN ou uma hierarquia de layers RNN. Este trabalho também estende os modelos anteriores para adicionar à concatenação das representações das strings, features adicionais, estas são derivadas de atributos de um dataset específico. Estes novos modelos de rede neuronal são avaliados usando dados que descrevem coleções de nomes de pessoas, organizações ou registos de locais históricos. Os resultados obtidos no treino e avaliação dos vários modelos de redes neuronais e suas extensões mostraram que os modelos neuronais alcançaram resultados superiores em todos os conjuntos de dados, quando comparados com medidas de similaridade de strings, sem a necessidade de ajustes dos parâmetros da rede., en=Duplicate detection is the process of identifying pairs of attributes/records that refer to the same real-world object. This is fundamental to ensure data quality in databases. Existing methods to detect duplicate attributes can leverage heuristic string similarity measures, phonetic encoding techniques that match strings based on the way they sound, or hybrid techniques that mix approaches. However, these methods all rely on common sub-strings in order to establish similarity, and often do not effectively capture the character replacements involved in duplicate attributes due to transliterations or different languages. This work follows on the proposal of previous work regarding string matching using deep neural networks. It considers more advanced neural architectures integrating shortcut connections, self attention mechanisms, hard alignment attention between the strings being compared, or max-pooling over the sequences of outputs of the recurrent layers, either considering a single RNN or a hierarchy of RNN layers. It also considers extentions the previous models involving a concatenation of the representations of the strings obtained through neural network layers, with other additional features, these features are derived from the dataset attributes but can also be related to the similarity between the strings. The models are evaluated using datasets describing collections of person names, organizations, or records of historical places. The results obtained from training and evaluating the various neural network models and their extensions showed that the neural models achieved superior results on all datasets, when compared to string similarity measures, without the need of major tunings of the network parameters.}
{pt=String Matching Aproximado, Redes Neuronais Profundas, Deteção de Duplicados, Supervised Machine Learning, Redes Neuronais Recorrentes, en=Approximate String Matching, Deep Neural Networks, Duplicate Detection, Supervised Machine Learning, Recurrent Neural Networks}

outubro 30, 2018, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado