FenixEdu™

Dissertação

{en_GB= Unsupervised Concept Analysis in Legal Documents} {} EVALUATED

Detalhes: {pt=A crescente consolidação de documentos legais em formato digital, conjuntamente com as necessidades de acesso e pesquisa, obriga à organização destes repositórios de documentos e ao desenvolvimento de procuras eficientes em grandes volumes de texto. O presente trabalho propõe categorizar o conteúdo destes repositórios de forma totalmente automática e não supervisionada por modo a facilitar a recuperação de documentos e navegação nestes repositórios. O trabalho tem como principal motivação a necessidade de categorizar a legislação de qualquer nação onde os metadados associados a cada documento não são suficientes para fazer uma categorização eficaz. Uma vez que os conceitos variam de documento para documento, o resultado é, frequentemente, um modelo vectorial de elevada esparsidade. Apesar de vários métodos para a organização de conteúdo terem sido propostos ao longo dos últimos anos, estes não se adequam de um modo geral a documentos nos quais os conceitos subjacentes são desconhecidos. De modo a endereçar este desafio, este trabalho faz um levantamento da literatura em diferentes domínios, e propõe uma solução que integra os princípios (actualmente dispersos) num novo processo de extracção de conhecimento não supervisionado, combinando princípios de modelação de tópicos, formal concept analysis, e biclustering. O processo aqui proposto não requer qualquer conhecimento de domínio prévio para ser aplicado a grandes repositórios de documentos textuais. O processo delineado neste documento foi aplicado no Diário da República Eletrónico, o repositório de documentos legais da República Portuguesa. Os resultados obtidos confirmam a relevância do processo proposto na categorização, navegação, e pesquisa de documentos., en=The recent access and consolidated storage of digital legal documents are creating the need for efficiently finding relevant information in large collections of documents. This work addresses the challenge of content categorization to support document navigation and retrieval. The work is motivated by the need to categorize the legislation of a country, where the existing metadata for each document is not sufficient for effective categorization, as concepts vary considerably among documents, resulting in an associated highly sparse vector-space model. Several authors have proposed methods for content categorization and organization in order to support document navigation and retrieval of relevant information in accordance with user’s needs. However, most of the existing methods are not suitable for documents where the general concepts are unknown. To address this challenge, we survey recent related work and propose a solution that integrates currently dispersed principles in a new unsupervised knowledge discovery process combining principles from topic modeling, formal concept analysis and biclustering. The proposed process does not require prior domain knowledge to be applied in large document collections. The document collection where the proposed method will be applied is the Portuguese official on-line publication journal repository of legal documents, referred as Diário da República Eletrónico. The results confirm the relevance of the proposed approach to content categorization, document navigation, and search.}
Keywords: {pt=Aprendizagem não supervisionada, Modelação de topicos, Formal Concept Analysis, Biclustering, Bibliotecas digitais de grande dimensão, en=Unsupervised Knowledge Discovery, Topic Modeling, Formal Concept Analysis, Biclustering, Large Digital Libraries}

Discussão: novembro 19, 2019, 13:0