Dissertação
Supervised Learning for Relationship Extraction From Textual Documents EVALUATED
Extracção de Informação é a tarefa de extrair automaticamente informação estruturada de dados não estruturados. Um típico sub-problema é a extracção de relações, com o objectivo de identificar e classificar as relações expressas entre as entidades mencionadas no texto. Para extrair relações, é importante preprocessar os dados, organizar os conteúdos textuais em estruturas de dados úteis com a utilização de técnicas de Processamento de Língua Natural. Como as relações são expressas entre entidades, é necessário identificá-las, usando para isso um método de extracção de entidades. Associar um tipo de relação, a um par de entidades, pode ser visto como um problema de classificação. Usámos máquinas de vectores de suporte, que treinámos com base em métodos online, semelhantes ao Pegasos. Testamos dois modelos específicos. O primeiro é uma simples solução online que treina modelos SVM considerando apenas um kernel. O segundo tem por base a ideia de aprendizagem online com múltiplos kernels. Com os bancos de dados existentes e um preprocessamento comum, formulámos uma benchmark a qual usamos para comparar e avaliar métodos baseados em kernels. Posteriormente implementámos os kernels do estado-da-arte, especificamente criados para a extracção de relações. Os resultados experimentais demonstraram uma melhor performance associada à aprendizagem de múltiplos kernels, em comparação com outras soluções heurísticas que apenas usaram combinações lineares do mesmo conjunto de kernels.
novembro 11, 2013, 14:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
CO-ORIENTADOR
Helena Isabel De Jesus Galhardas
Departamento de Engenharia Informática (DEI)
Professor Auxiliar
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Informática (DEI)
Professor Auxiliar