Sumários

Detecção e eliminação de duplicados

3 dezembro 2010, 11:30 Helena Galhardas

Record Linkage ou detecção de registos duplicados:

  • Principais passos
  • Método Sorted Neighborhood para redução do tempo de execução
Fusão de duplicados: método baseado em SQL.


Detecção de duplicados entre elementos XML

3 dezembro 2010, 10:00 Bruno Emanuel Da Graça Martins

  • Exercícios sobre detecção de duplicados entre elementos XML.
  • Apoio ao mini-projecto.


Detecção de duplicados entre elementos XML

2 dezembro 2010, 14:00 Bruno Emanuel Da Graça Martins

  • Exercícios sobre detecção de duplicados entre elementos XML.
  • Apoio ao mini-projecto.


Detecção de duplicados entre elementos XML

2 dezembro 2010, 09:30 Bruno Emanuel Da Graça Martins

  • Exercícios sobre detecção de duplicados entre elementos XML.
  • Apoio ao mini-projecto.


String matching (cont.)

2 dezembro 2010, 08:00 Helena Galhardas

Medidas de semelhança entre cadeias de caracteres:

  • baseadas em sequência de caracteres: medida de Jaro e Jaro-Winkler.
  • baseadas em conjuntos de tokens: overlap, Jaccard, e TF/IDF.
  • baseadas em fonética: soundex.


Algoritmos para tornar eficiente o cálculo da semelhança entre conjuntos grandes de cadeias de caracteres - baseados em blocking:

  • índices invertidos sobre cadeias de caracteres
  • Filtragem pelo tamanho das cadeias de caracteres.