Dissertação

Supervised Learning for Relationship Extraction From Textual Documents EVALUATED

Extracção de Informação é a tarefa de extrair automaticamente informação estruturada de dados não estruturados. Um típico sub-problema é a extracção de relações, com o objectivo de identificar e classificar as relações expressas entre as entidades mencionadas no texto. Para extrair relações, é importante preprocessar os dados, organizar os conteúdos textuais em estruturas de dados úteis com a utilização de técnicas de Processamento de Língua Natural. Como as relações são expressas entre entidades, é necessário identificá-las, usando para isso um método de extracção de entidades. Associar um tipo de relação, a um par de entidades, pode ser visto como um problema de classificação. Usámos máquinas de vectores de suporte, que treinámos com base em métodos online, semelhantes ao Pegasos. Testamos dois modelos específicos. O primeiro é uma simples solução online que treina modelos SVM considerando apenas um kernel. O segundo tem por base a ideia de aprendizagem online com múltiplos kernels. Com os bancos de dados existentes e um preprocessamento comum, formulámos uma benchmark a qual usamos para comparar e avaliar métodos baseados em kernels. Posteriormente implementámos os kernels do estado-da-arte, especificamente criados para a extracção de relações. Os resultados experimentais demonstraram uma melhor performance associada à aprendizagem de múltiplos kernels, em comparação com outras soluções heurísticas que apenas usaram combinações lineares do mesmo conjunto de kernels.
Extração de Relações, Máquinas de Vetores de Suporte, Aprendizagem Online, Aprendizagem com Multiplos Kernels

Novembro 11, 2013, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

CO-ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar