FenixEdu™

Dissertação

{en_GB=Automatic Correspondence Distribution for a Public Institution} {} EVALUATED

Detalhes: {pt=A distribuição de correspondência é de extrema importância numa grande organização como a Marinha Portuguesa. Um documento mal encaminhado pode ter graves repercussões, tais como a não realização de tarefas importantes e a perda de informação. Com o passar do tempo, a classificação do texto evoluiu de modelos de frequência de palavras para modelos sequenciais com word embeddings. Esta mudança de paradigma é atualmente o estado da arte e revela resultados promissores em datasets de grande escala. Atualmente, a correspondência dentro da Marinha é classificada à mão, tarefa morosa que pode ser propensa a erro humano. Assim, esta dissertação aborda este problema, estudando alternativas viáveis para a classificação automática de textos, através de Machine Learning e ferramentas de Processamento de Linguagem Natural. Com este objectivo em mente, vários modelos de Machine Learning foram testados e estudados, alguns deles mostrando resultados positivos, tais como Regressão Logística, com mais de 90% de acurácia média em todas as etiquetas e um exact match ratio de aproximadamente 50%., en=Correspondence distribution is of utter importance in a large organization such as the Portuguese Navy. A misdirected document might have severe repercussions such as important tasks not being performed and information being lost. Over time, text classification went from relying solely on word frequency models to sequential models with word embeddings. This paradigm shift is currently the state of the art and reveals promising results in large scale datasets. Currently, correspondence within the Navy is classified by hand which can be prone to human error and time-consuming. Hence, this dissertation addresses this problem, studying viable alternatives for automatic text classification, relying on Machine Learning and Natural Language Processing tools. With this goal in mind, various machine learning models were tested and studied, with some of them showing positive results, such as Logistic Regression, with over 90% average accuracy over all labels and an average Exact Match Ratio of approximately 50%.}
Keywords: {pt=Distribuição de Correspondência, Classificação Multi-label, Processamento de Linguagem Natural, Machine Learning, en=Correspondence Distribution, Multi-label Classification, Natural Language Processing, Machine Learning}

Discussão: janeiro 28, 2021, 14:30