Dissertação

{pt=Query Classification and Expansion in Just.Ask Question Answering System} {} EVALUATED

{pt=O principal foco desta tese é o sistema de Pergunta Resposta Just.Ask desenvolvido no L2F, sendo os principais objectivos embutir o Just.Ask com mecanismos de Classificação de Queries e Reformulação de Questões/Expansão de Questões de forma a permitir aos utilizadores expressarem as suas necessidades de informação usando queries e melhorar o número de passagens relevantes obtidas, respectivamente. Relativamente ao primeiro objectivo, um classificador de queries baseado em Support Vector Machines foi treinado e testado usando um conjunto de features desenvolvidas para a Classificação de Queries tendo em conta as características das queries, obtendo para a classificação geral e fina, respectivamente, uma precisão máxima de 86% e 80.2%. Adicionalmente, duas abordagens são propostas para realizar a Classificação Simultânea de Queries e Questões, tendo a melhor abordagem uma precisão máxima de 86.6% e 79.7% para a classificação geral e fina, respectivamente. Quanto ao segundo objectivo, foram criados dois formuladores de queries que implementam, respectivamente, mecanismos de Reformulação de Queries e de Expansão de Queries. O primeiro formulador produz queries que representam possíveis reformulações da pergunta do utilizador que são obtidas fazendo matching da questão do utilizador com um conjunto de 163 expressões regulares. O segundo formulador expande a headword/headword composta e os verbos principais que existem na questão do utilizador com termos semanticamente relacionados obtidos através da Wordnet. Usando o Bing e o Lucene como motores de pesquisa observa-se, respectivamente, uma melhoria na performance inicial de 17 questões (9.2%) e 20 questões (10.9%) no número de questões com passagens positivas., en=This thesis focus is the Just.Ask Question Answering system developed at L2F, having as main goals to endow Just.Ask with Query Classification and Query Reformulation/Query Expansion mechanisms in order to, respectively, allow the users to be able to express their information needs in form of queries and to improve the number of retrieved relevant passages. Regarding the first goal, a Support Vector Machines query classifier was trained and tested using features developed for the Query Classification task that take into consideration the main characteristics of queries, obtaining for coarse and fine-grained classification a maximum accuracy of 86% and 80.2%, respectively. Additionally, two approaches are proposed to perform simultaneous Query and Question Classification, with the best approach having a maximum accuracy of 86.6% and 79.7% for coarse and fine-grained classification, respectively. As for the second goal, two query formulators that implement Query Reformulation and Query Expansion mechanisms, respectively, were devised. The first one produces queries that are possible reformulations of the user question and that are obtained by matching the user question with a set of 163 regular expressions. The second one expands the question headword/compound headword and the main verbs that exist in the user question with semantically related terms obtained using Wordnet. When using Bing and Lucene search engines there is an improvement over the baseline retrieval performance of 17 questions (9.2%) and 20 questions (10.9%) over the number of questions with positive passages, respectively. }
{pt=Query, Questão, Classificação de Queries, Classificador de Queries, Reformulação de Queries, Expansão de Queries, en=Query, Question, Query Classification, Query Classifier, Query Reformulation, Query Expansion}

Maio 30, 2012, 11:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar