Dissertação

{pt_PT=Automating the Response Processes in TAP PORTUGAL’s Social Networks } {} EVALUATED

{pt=A rápida disseminação de informações e de ideias, conjuntamente com o aumento do desenvolvimento de comunicações instantâneas, potenciou o rápido crescimento do aparecimento de textos curtos. Estes podem conter/esconder informação valiosa em âmbito empresarial, razão pela qual tornou-se interessante, para as empresas extrair informação, se possível de forma automática, a partir destes. Foi neste contexto que a TAP PORTUGAL mostrou interesse na elaboração de um estudo, com base em algoritmos de aprendizagem automática, que classificassem os comentários que os seus clientes efetuam no Facebook e no Twitter em 4 tipologias: Elogios, Reclamações, Questões e Sugestões. Analisando o novo corpus criado, foi possível caracterizá-lo em: escasso e curto; multilíngue; não categorizado; ruidoso, não balanceado e não estruturado. Com base no conhecimento adquirido e da categorização manual, foi criado um corpus anotado onde identificamos e analisamos queixas, elogios, perguntas e sugestões, mais predominantes. As várias experiências realizadas usando algoritmos de aprendizagem automática classificaram o k-vizinhos mais próximos e a máquina de vetores de suporte como os melhores classificadores, entre os estudados, obtendo resultados bastante elevados em certas condições. Apesar dos bons resultados alcançados por ambos os classificadores, a máquina de vetores de suporte demonstrou ser o classificador mais robusto, apresentando resultados muito bons mesmo quando se reduz os dados de treino., en=The rapid dissemination of information and ideas, in combination with the rise of the development of instant communication, lead to an accelerated growth of short texts. Since short texts might enclose valuable intelligence, mining these sources has become of increased interest for corporations. It was in this context that TAP PORTUGAL showed interest in the elaboration of a study, based on machine learning algorithms, to identify the comments that its clients make on Facebook and Twitter in 4 typologies: Praise, Complaints, Questions and Suggestions. Analyzing the new created corpus, it was possible to characterize it as: sparse and short; multilingual; unlabeled; noisy; imbalanced; and non-standard. From the annotated corpus and acquired knowledge of manually labeling it, we retrieved and analyzed predominant complaints, praises, questions and suggestions. The conducted experiments using machine learning algorithms pinpointed k-Nearest Neighbors and Support Vector Machine as the best classifiers among the ones studied, achieving very high scores in certain conditions. Despite the good scores achieved by both classifiers, Support Vector Machine was clearly the most robust model presenting very good results when reducing the training data as well. }
{pt=TAP PORTUGAL, Categorização de Texto, Redes Sociais, en=TAP PORTUGAL, Text Categorization, Social Networks}

Junho 5, 2017, 13:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

João Paulo Baptista de Carvalho

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Associado

ORIENTADOR

Maria Luísa Torres Ribeiro Marques da Silva Coheur

Departamento de Engenharia Informática (DEI)

Professor Auxiliar