Dissertação

Approximate String Matching and Duplicate Detection in the Deep Learning Era EVALUATED

Duplicate detection é o processo de identificação de pares de atributos/registos que se referem ao mesmo objeto do mundo real. Os métodos existentes para detectar atributos duplicados passam por técnicas baseadas em distância de edição que usam métodos de similaridade entre strings, técnicas fonéticas que combinam strings baseadas na maneira como estas soam ou técnicas híbridas. No entanto, estes métodos dependem de sub-strings comuns para estabelecer semelhança e, com frequência, não capturam substituições de caracteres devido a transliterações ou a escrita em idiomas diferentes. Este trabalho segue a proposta de trabalhos anteriores em relação a string matching usando redes neuronais. Considera arquiteturas neuronais mais avançadas integrando shortcut connections, mecanismos de self-attention, hard-allignment attention entre as strings a comparar ou o uso de max-pooling sobre a sequência de output das camadas recorrentes da rede neuronal, considerando uma só layer RNN ou uma hierarquia de layers RNN. Este trabalho também estende os modelos anteriores para adicionar à concatenação das representações das strings, features adicionais, estas são derivadas de atributos de um dataset específico. Estes novos modelos de rede neuronal são avaliados usando dados que descrevem coleções de nomes de pessoas, organizações ou registos de locais históricos. Os resultados obtidos no treino e avaliação dos vários modelos de redes neuronais e suas extensões mostraram que os modelos neuronais alcançaram resultados superiores em todos os conjuntos de dados, quando comparados com medidas de similaridade de strings, sem a necessidade de ajustes dos parâmetros da rede.
String Matching Aproximado, Redes Neuronais Profundas, Deteção de Duplicados, Supervised Machine Learning, Redes Neuronais Recorrentes

Outubro 30, 2018, 13:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado