Dissertação

{pt_PT=Predicting Restaurant Inspection Scores Based on Yelp Data and Sanitary Inspection Reports} {} EVALUATED

{pt=Este trabalho tem como principal objetivo detetar problemas de higiene e violações dos padrões sanitários em restaurantes, usando informações fornecidas em redes sociais baseadas em localização. Este é um problema bastante comum devido ao número limitado de inspetores em comparação com o número de estabelecimentos. Os inspetores raramente são ajudados por reclamações formais, embora muitas reclamações sejam realmente relatadas na forma de comentários em plataformas sociais. Este projeto de mestrado explora técnicas de machine learning para construir modelos capazes de detetar estabelecimentos que violam padrões de saúde e higiene, baseados em comentários textuais retirados de plataformas sociais (neste caso, do Yelp). O projeto explora mecanismos de classificação de texto baseados em redes neurais profundas, inspirando-se em trabalhos recentes no campo do Processamento de Linguagem Natural (NLP). Este projeto usou um conjunto de dados fornecido pela plataforma Yelp, mas alguns dados foram recolhidos por mim para aumentar o número de reviews de cada estabelecimento. Para tal, recorri à API do Yelp, que permitiu procurar o máximo de reviews possíveis para cada estabelecimento e apoiar a parte de treino e a avaliação dos métodos a serem desenvolvidos. Os resultados obtidos foram testados com algumas métricas de avaliação. As métricas de desempenho mostraram que as redes neurais recorrentes alcançaram melhores resultados do que o outro modelo. Finalmente, quando o conjunto de dados foi equilibrado, foi o melhor resultado alcançável., en=The main goal of this work was detecting hygiene problems and violations of sanitary standards in restaurants, using information provided on location-based social networks. This is a common problem due to the limited number of inspectors compared to the number of establishments. Inspectors are rarely helped by formal complaints, although many complaints are actually reported in the form of comments on social platforms. This M.Sc. project explored machine learning techniques to build models capable of detecting establishments that violate health and hygiene standards, based on textual comments collected from social platforms (in this case, the social platform named Yelp). The project explored text classification mechanisms based on deep neural networks, taking inspiration in recent work within the Natural Language Process (NLP) field. This project used an existing data set provided by the Yelp platform. The data set was collected by me to increase the number of reviews from each establishment. So, I used the Yelp API, which allowed me to search for as many reviews as possible, and helped support the training and evaluation parts of the methods to be developed. The obtained results were tested with some evaluation metrics. The performance metrics have shown that recurrent neural networks achieve better results than the other model. Finally, when the data set is balanced, it was the best achievable result.}
{pt=Aprendizagem Profunda, Classificação de Texto., en=Deep Learning, Text Classification.}

Novembro 2, 2018, 14:0

Orientação

ORIENTADOR

Bruno Emanuel Da Graça Martins

Departamento de Engenharia Informática (DEI)

Professor Auxiliar

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático