FenixEdu™

Dissertação

{pt_PT=Intelligent Funds Assistant} {} EVALUATED

Detalhes: {pt=Atualmente, a União Europeia tem um plano de desenvolvimento económico em vigor para ajudar cada país a melhorar certas áreas de sua economia. Portugal beneficia deste apoio financeiro, no entanto, verificou-se que este financiamento não é totalmente utilizado. Um dos principais desafios do sistema atual de candidatura ao financiamento da UE é a identificação da melhor chamada a responder para cada candidato, o qual foi cuidadosamente explorado nesta tese. Este trabalho tem como objetivo desenvolver um assistente para os fundos, utilizando técnicas de Natural Language Processing para processamento de texto e Machine Learning para facilitar a construção dos modelos. O assistente deverá ajudar os beneficiários ao encontrar uma chamada a partir de uma descrição escrita do projeto, na esperança de melhorar a experiência geral dos fundos comunitários. Este problema foi tratado como classificação multi-classe hierárquica de texto, aproveitando a estrutura hierárquica dentro dos fundos europeus. Quatro modelos foram escolhidos para comparar o desempenho da classificação: Naive Bayes, Support Vector Machines, Random Forest e k-Nearest Neighbors. A técnica de extração de features utilizada para a representação numérica do texto foi a vectorização TF-IDF, e o desempenho dos modelos que constituem o processo de classificação foi analisado em termos de accuracy, F1 score e Matthews Correlation Coefficient. Neste trabalho, foi observado que SVM supera o resto dos classificadores com algumas exceções. Além disso, os resultados dos classificadores SVM calibrados, ao considerar uma segunda previsão quando o modelo está incerto sobre sua primeira, alcançaram resultados ainda melhores em todos os níveis da hierarquia., en=Currently, the European Union has a supporting economic development plan in place to assist each country in certain areas of their economy. Portugal benefits from this financial support, however, it has been verified that this financing is not being fully used. One of the main setbacks in the EU funding application system is the identification of the best call for proposal, which was carefully explored in this paper. This work aims to develop a funds assistant, using Natural Language Processing techniques for text processing and Machine Learning to facilitate the construction of the models. The funds assistant is expected to match a call from a written description of the project, hoping to improve the overall experience of the community funds system. This problem was addressed as hierarchical multi-class text classification, taking advantage of the hierarchical structure inside the European funds. Four models were chosen to compare the classification performance: Naive Bayes, Support Vector Machines, Random Forest and k-Nearest Neighbors. The feature extraction technique used for the numerical representation of text was the TF-IDF vectorization, and the performance of the twenty-two models that constitute the whole classification process was analysed in terms of accuracy, F1 score and Matthews Correlation Coefficient. In this work, it was observed that SVM outperforms the rest of the classifiers with a few exceptions. In addition, the results from SVM calibrated classifiers, considering a second prediction when the model was uncertain about its first one, achieved even higher performances in all levels of the hierarchy. }
Keywords: {pt=Machine Learning, Natural Language Processing, Classificação hierárchica de texto, Support Vector Machines, Vectorização TF-IDF, en=Machine Learning, Natural Language Processing, Hierarchical Text Classification, Support Vector Machines, TF-IDF Vectorization}

Discussão: dezembro 7, 2021, 17:0