Dissertação

{en_GB=Detecting and Characterizing User Sessions in the Context of a Search Engine for Legislative Contents} {} EVALUATED

{pt=A segmentação das interações do utilizador conforme registradas nos registos de queries de um motor de busca, de acordo com as necessidades de informações subjacentes (por exemplo, delimitando as sessões do utilizador), é importante para perceber as necessidades de informação e avaliar como elas são satisfeitas, para melhorar a qualidade das funções de ranking e para melhor direcionar conteúdo para determinados utilizadores. A maioria dos métodos anteriores usa julgamentos humanos para informar algoritmos de aprendizagem supervisionada e/ou usam limites globais de proximidade temporal e métricas simples de similaridade lexical. Esta dissertação apresenta um método não supervisionado para segmentar sessões do utilizador que aprimora o atual estado da arte, aproveitando heurísticas adicionais e métricas de similaridade derivadas de word embeddings. Eu estendi uma abordagem anterior baseada na combinação de medidas de similaridade temporal e lexical, integrando componentes de similaridade semântica que usam FastText embeddings pré-treinados. Com base no método de segmentação de sessões, esta dissertação também avança uma abordagem não supervisionada para detectar missões detectando comportamento multitarefa e/ou objetivos hierárquicos. Eu reporto experiências com dois subconjuntos diferentes do conhecido dataset do AOL, ambos usados em estudos anteriores. Os resultados atestam a eficácia dos métodos propostos, que superam um grande conjunto de baselines, correspondendo também a técnicas não supervisionadas. Com base nos métodos anteriores, realizei um estudo de caracterização para inferir a satisfação do utilizador no contexto de um motor de busca de conteúdos legislativos., en=Segmenting user interactions as registered in search engine query logs, according to the underlying information needs (e.g., delimiting user sessions), is important to perceive information needs and assess how they are satisfied, to enhance the quality of search engine rankings, and to better direct content to certain users. Most previous methods use human judgments to inform supervised learning algorithms, and/or use global thresholds on temporal proximity and on simple lexical similarity metrics. This dissertation presents an unsupervised method for segmenting user sessions that improves on the current state-of-art, leveraging additional heuristics and similarity metrics derived from word embeddings. I specifically extend a previous approach based on combining temporal and lexical similarity measurements, integrating semantic similarity components that use pre-trained FastText embeddings. Building on the session segmentation method, the dissertation also advances an unsupervised approach for detecting search missions detecting multitasking behavior pattern, and/or hierarchical goals. I report on experiments with two different subsets from the well-known AOL query dataset, both used in previous studies. The results attest to the effectiveness of the proposed methods, which outperform a large set of baselines also corresponding to unsupervised techniques. However, one particular challenge relates to the fact that query logs often do not feature unique user identifiers. In these cases, the logs may feature queries from different users appearing interleaved in chronological order. Building on the session segmentation method, I made a characterization study for infer user satisfaction in the context of a search engine for legislative contents.}
{pt=Análise de registos de queries, Detecção de sessão do utilizador, Detecção de missão do utilizador, Medidas de semelhança de caracteres, Word embeddings, Estudo de um motor de busca português, en=Analysis of query logs, User session detection, User mission detection, String similarity metrics, Word embeddings, Study from a portuguese search engine}

Dezembro 2, 2019, 16:30

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Luís Miranda Cruz

Technische Universiteit Delft

Investigador