Sumários
Detecção e eliminação de duplicados
3 dezembro 2010, 11:30 • Helena Galhardas
Record Linkage ou detecção de registos duplicados:
- Principais passos
- Método Sorted Neighborhood para redução do tempo de execução
Detecção de duplicados entre elementos XML
3 dezembro 2010, 10:00 • Bruno Emanuel Da Graça Martins
- Exercícios sobre detecção de duplicados entre elementos XML.
- Apoio ao mini-projecto.
Detecção de duplicados entre elementos XML
2 dezembro 2010, 14:00 • Bruno Emanuel Da Graça Martins
- Exercícios sobre detecção de duplicados entre elementos XML.
- Apoio ao mini-projecto.
Detecção de duplicados entre elementos XML
2 dezembro 2010, 09:30 • Bruno Emanuel Da Graça Martins
- Exercícios sobre detecção de duplicados entre elementos XML.
- Apoio ao mini-projecto.
String matching (cont.)
2 dezembro 2010, 08:00 • Helena Galhardas
Medidas de semelhança entre cadeias de caracteres:
- baseadas em sequência de caracteres: medida de Jaro e Jaro-Winkler.
- baseadas em conjuntos de tokens: overlap, Jaccard, e TF/IDF.
- baseadas em fonética: soundex.
Algoritmos para tornar eficiente o cálculo da semelhança entre conjuntos grandes de cadeias de caracteres - baseados em blocking:
- índices invertidos sobre cadeias de caracteres
- Filtragem pelo tamanho das cadeias de caracteres.