Dissertação
A Semantic Search System for the Supremo Tribunal de Justiça EVALUATED
Os sistemas de recuperação de informação utilizam frequentemente abordagens lexicais para recuperar informação. Tais abordagens têm múltiplas limitações, e estas limitações são agravadas quando ligadas a domínios específicos, tais como o legal. Large Language Models, como o BERT, compreendem profundamente uma linguagem e podem ultrapassar as limitações de metodologias mais antigas, como o BM25. Este trabalho investigou e desenvolveu um protótipo de um Sistema de Busca Semântica para assistir o Supremo Tribunal de Justiça português no seu processo de tomada de decisão. Construímos um Sistema de Pesquisa Semântica que utiliza modelos BERT especialmente treinados (variantes Legal-BERTimbau) e Sistemas de Pesquisa híbrida que incorporam tanto técnicas lexicais como semânticas, combinando as capacidades da BM25 e o potencial da Legal-BERTimbau. Reportamos um aumento de desempenho de 335% na recuperação de passagens relevantes quando comparado com BM25 para o resultado da primeira consulta. Este trabalho também fornece informações sobre as técnicas mais relevantes para a formação de um Modelo de Grandes Línguas adaptado à jurisprudência portuguesa e introduz uma nova técnica, Metadata Knowledge Distillation.
junho 14, 2023, 9:0
Publicação
Obra sujeita a Direitos de Autor
Orientação
ORIENTADOR
João Miguel De Sousa de Assis Dias
Faculdade de Ciências e Tecnologia - Universidade do Algarve
Professor Auxiliar