Dissertação
Detecção de Paráfrases e Aplicações na Pesquisa de Respostas em Bases de Dados de Perguntas Frequentes EVALUATED
Este trabalho trata da tarefa de identificação de paráfrases. Propomos tratar desta tarefa usando aprendizagem automática supervisionada, treinado modelos de classificação baseados em árvores de decisão que usam características correspondentes a medidas de similaridade entre strings, baseadas essencialmente em informação lexical. As contribuições mais inovadoras deste trabalho relacionam-se com (i) o uso de métodos de classificação do atual estado da arte baseados em árvores de decisão, (ii) a combinação de medidas da área da tradução automática com outras características, e (iii) o uso de características baseadas em medidas de similaridade entre strings, as quais utilizam informação obtida com técnicas de word clustering. É reportado neste artigo um conjunto de experiências que usam o conhecido Microsoft Research Paraphrase Corpus, em que conseguimos uma exatidão de 0.77 e uma medida F1 de 0.84. Assim, é demonstrado que algoritmos de aprendizagem automática usando características relativamente simples podem obter resultados semelhantes aos resultados do actual estado-da-arte nesta tarefa. Aplicámos também o método proposto para a deteção de paráfrases a um problema de pesquisa em bases de dados de perguntas frequentes (FAQ Retrieval). Usando os dados do concurso internacional FireFAQ, obtivemos uma precisão na primeira posição da lista de resultados de 0.83 e 0.73, respetivamente com os dados das edições FireFAQ 2011 e FireFAQ 2012. Desta forma, prova-se empiricamente que os mesmos algoritmos podem ser usados quer na detecção de relações de paráfrase entre duas frases, quer na detecção de uma paráfrase para com um conjunto de perguntas frequentes (FAQ).
novembro 7, 2013, 14:30
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
Bruno Emanuel Da Graça Martins
Departamento de Engenharia Informática (DEI)
Professor Auxiliar