Dissertação

{en_GB=Predict Lost Flights Connections: An Interpretable Machine Learning Approach} {} EVALUATED

{pt=A otimização da programação de voos e a satisfação dos passageiros são problemas que afetam profundamente as receitas do setor da aviação civil. A perda de voos de ligação, que muitas vezes resulta da falta de mecanismos preventivos, afeta as operações regulares das companhias aéreas e consequentemente as suas receitas e imagem. Propomos uma nova abordagem para a previsão do sucesso das conexões dos passageiros com um foco na interpretabilidade, uma vez que o sucesso das conexões é fundamental para o lucro das companhias aéreas, e que a tomada de decisões por parte dos dirigentes requer explicações que sustentem tais escolhas de gestão. Os modelos foram desenvolvidos a partir de dados da atividade da TAP Air Portugal de janeiro de 2019 a fevereiro de 2020. Os dados foram analisados em conjunto com alguma feature engineering, incluindo a codificação de variáveis e a geração de novos dados para reequilibrar o problema. No total, estudamos cinco modelos, dois não interpretáveis e três interpretáveis. Os resultados dos modelos interpretáveis não foram tão bons quanto os resultados dos modelos não interpretáveis, mas o desempenho dos modelos interpretáveis na classe minoritária, as conexões perdidas, foi próximo ao visto no melhor modelo não interpretável. As métricas usadas incluíram o Recall na classe minoritária e o Recall macro-average na tarefa de classificação global. Todos os modelos sugeriram que a variável mais crítica nas previsões é o tempo agendado para a conexão e todos eles não atribuiram grande importância a variáveis como a idade ou o género., en=In airlines, flight schedule optimization and passenger satisfaction are problems that profoundly impact the airline industry revenue every year. Missed connections are often a consequence of unexpected disruptions and the lack of preventive mechanisms that affect airlines' regular operations and image. This thesis proposes a new approach for models to classify the success of passengers' connections through an airline hub, focusing on interpretability. This issue is key to airline profitability since decision-makers often want to have hard evidence before taking action. The models were trained on data from TAP Air Portugal's passenger activity from 2019 and the beginning of 2020, along with some data from airport movements. We analyzed the data and did some feature engineering, including encoding some features and generating new samples to re-balance the dataset. In total, we studied five models, two non-interpretable plus three interpretable models. The overall accuracy of the interpretable models was not as good as the results from the non-interpretable models. However, when looking for critical metrics for imbalanced data, as this is the case, and the performance on the minority class, i.e., missed connections, the interpretable models had a performance close to the one seen in the best non-interpretable model. These metrics included the Recall on the minority class and the macro-average Recall of the classification task as a whole. All models suggested that the most critical feature is the time scheduled for the connection and all of them gave none to marginal importance to features such as age or gender.}
{pt=Aprendizagem Automática, Classificação em Dados não Balanceados, Explicação de Modelos, Modelos Interpretáveis, Voos de Ligação, en=Flight Connections, Imbalanced Classification, Interpretable Models, Machine Learning, Model Explanation.}

dezembro 14, 2021, 11:0

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Rodrigo Martins de Matos Ventura

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar

ORIENTADOR

Cláudia Alexandra Magalhães Soares

Departamento de Engenharia Electrotécnica e de Computadores (DEEC)

Professor Auxiliar Convidado