Dissertação

A Semantic Search System for the Supremo Tribunal de Justiça EVALUATED

Os sistemas de recuperação de informação utilizam frequentemente abordagens lexicais para recuperar informação. Tais abordagens têm múltiplas limitações, e estas limitações são agravadas quando ligadas a domínios específicos, tais como o legal. Large Language Models, como o BERT, compreendem profundamente uma linguagem e podem ultrapassar as limitações de metodologias mais antigas, como o BM25. Este trabalho investigou e desenvolveu um protótipo de um Sistema de Busca Semântica para assistir o Supremo Tribunal de Justiça português no seu processo de tomada de decisão. Construímos um Sistema de Pesquisa Semântica que utiliza modelos BERT especialmente treinados (variantes Legal-BERTimbau) e Sistemas de Pesquisa híbrida que incorporam tanto técnicas lexicais como semânticas, combinando as capacidades da BM25 e o potencial da Legal-BERTimbau. Reportamos um aumento de desempenho de 335% na recuperação de passagens relevantes quando comparado com BM25 para o resultado da primeira consulta. Este trabalho também fornece informações sobre as técnicas mais relevantes para a formação de um Modelo de Grandes Línguas adaptado à jurisprudência portuguesa e introduz uma nova técnica, Metadata Knowledge Distillation.
BERT, Inteligência Artificial, Jurisprudência, Processamento de Linguagem Natural, Recuperação de Informacão, SBERT

junho 14, 2023, 9:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pedro Alexandre Simões dos Santos

Departamento de Matemática (DM)

Professor Associado

ORIENTADOR

João Miguel De Sousa de Assis Dias

Faculdade de Ciências e Tecnologia - Universidade do Algarve

Professor Auxiliar