Sistema de predicción de resultados deportivos basado en aprendizaje automático

Bookmark (0)
Please login to bookmark Close

En este Trabajo de Fin de Grado se aborda la predicción del resultado de partidos de la NBA mediante técnicas de aprendizaje automático, con el objetivo de estimar la probabilidad de victoria del equipo local a partir de datos históricos de partidos y estadísticas agregadas de los jugadores. La motivación principal del proyecto radica en analizar hasta qué punto modelos de machine learning relativamente modestos, entrenados con datos públicos, son capaces de realizar predicciones con un grado de acierto aceptable.
La predicción de resultados deportivos ha sido históricamente estudiada mediante enfoques estadísticos clásicos y, más recientemente, mediante modelos de aprendizaje automático y aprendizaje profundo. En particular, en este proyecto se abordan los modelos basados en árboles de decisión ensamblados, como XGBoost, y las redes neuronales recurrentes, como las LSTM, por su capacidad para modelar relaciones no lineales y dependencias temporales. El presente trabajo se centra en un escenario realista, utilizando únicamente datos accesibles públicamente y un conjunto de características cuidadosamente seleccionado.
El proyecto se estructura en varias fases. En primer lugar, se realiza un proceso de recolección, limpieza y transformación de datos históricos de partidos de la NBA, generando un conjunto de características representativas del rendimiento de los equipos. A partir de estos datos, se implementan dos enfoques para la predicción. El primero consiste en redes neuronales LSTM que aprovechan la naturaleza secuencial y cronológica de los partidos. El segundo enfoque se basa en el algoritmo XGBoost, que modela el problema como una tarea de clasificación binaria sobre datos tabulares.
Los modelos se entrenan y evalúan siguiendo una praxis común, con una división temporal de los datos en conjuntos de entrenamiento, validación y prueba. Finalmente, se comparan los resultados obtenidos por ambos enfoques, analizando no solo su precisión, sino también otras métricas y valores representativos del rendimiento de los modelos. Los resultados muestran que, aun con un conjunto de datos limitado en comparación con sistemas más complejos, es posible superar una predicción base y obtener estimaciones razonablemente aceptables del resultado de los partidos. Asimismo, el trabajo pone de manifiesto la importancia crítica de la selección de datos y su procesamiento, y deja abiertas diversas líneas de mejora para trabajos futuros.
ABSTRACT
This Final Degree Project addresses the prediction of NBA match results using machine learning techniques, with the aim of estimating the probability of victory for the home team based on historical match data and aggregate player statistics. The main motivation for the project is to analyse the extent to which relatively modest machine learning models, trained with public data, are capable of making predictions with an acceptable degree of accuracy.
The prediction of sports results has historically been studied using classical statistical approaches and, more recently, using machine learning and deep learning models. In particular, this project addresses models based on assembled de cision trees, such as XGBoost, and recurrent neural networks, such as LSTMs, due to their ability to model non-linear relationships and temporal dependencies. This work focuses on a realistic scenario, using only publicly available data and a carefully selected set of features.
The project is structured in several phases. First, historical NBA game data is collected, cleaned and transformed, generating a set of characteristics representative of team performance. Based on this data, two approaches to prediction are implemented. The first consists of LSTM neural networks that exploit the sequential and chronological nature of the games. The second approach is based on the XGBoost algorithm, which models the problem as a binary classification task on tabular data.
The models are trained and evaluated following a common practice, with a temporal division of the data into training, validation and test sets. Finally, the results obtained by both approaches are compared, analysing not only their accuracy, but also other metrics and values representative of the models’ performance. The results show that, even with a limited dataset compared to more complex systems, it is possible to exceed a baseline prediction and obtain reasonably acceptable estimates of match results. The work also highlights thecritical importance of data selection and processing, and leaves open several avenues for improvement in future work.

​En este Trabajo de Fin de Grado se aborda la predicción del resultado de partidos de la NBA mediante técnicas de aprendizaje automático, con el objetivo de estimar la probabilidad de victoria del equipo local a partir de datos históricos de partidos y estadísticas agregadas de los jugadores. La motivación principal del proyecto radica en analizar hasta qué punto modelos de machine learning relativamente modestos, entrenados con datos públicos, son capaces de realizar predicciones con un grado de acierto aceptable.
La predicción de resultados deportivos ha sido históricamente estudiada mediante enfoques estadísticos clásicos y, más recientemente, mediante modelos de aprendizaje automático y aprendizaje profundo. En particular, en este proyecto se abordan los modelos basados en árboles de decisión ensamblados, como XGBoost, y las redes neuronales recurrentes, como las LSTM, por su capacidad para modelar relaciones no lineales y dependencias temporales. El presente trabajo se centra en un escenario realista, utilizando únicamente datos accesibles públicamente y un conjunto de características cuidadosamente seleccionado.
El proyecto se estructura en varias fases. En primer lugar, se realiza un proceso de recolección, limpieza y transformación de datos históricos de partidos de la NBA, generando un conjunto de características representativas del rendimiento de los equipos. A partir de estos datos, se implementan dos enfoques para la predicción. El primero consiste en redes neuronales LSTM que aprovechan la naturaleza secuencial y cronológica de los partidos. El segundo enfoque se basa en el algoritmo XGBoost, que modela el problema como una tarea de clasificación binaria sobre datos tabulares.
Los modelos se entrenan y evalúan siguiendo una praxis común, con una división temporal de los datos en conjuntos de entrenamiento, validación y prueba. Finalmente, se comparan los resultados obtenidos por ambos enfoques, analizando no solo su precisión, sino también otras métricas y valores representativos del rendimiento de los modelos. Los resultados muestran que, aun con un conjunto de datos limitado en comparación con sistemas más complejos, es posible superar una predicción base y obtener estimaciones razonablemente aceptables del resultado de los partidos. Asimismo, el trabajo pone de manifiesto la importancia crítica de la selección de datos y su procesamiento, y deja abiertas diversas líneas de mejora para trabajos futuros.
ABSTRACT
This Final Degree Project addresses the prediction of NBA match results using machine learning techniques, with the aim of estimating the probability of victory for the home team based on historical match data and aggregate player statistics. The main motivation for the project is to analyse the extent to which relatively modest machine learning models, trained with public data, are capable of making predictions with an acceptable degree of accuracy.
The prediction of sports results has historically been studied using classical statistical approaches and, more recently, using machine learning and deep learning models. In particular, this project addresses models based on assembled de cision trees, such as XGBoost, and recurrent neural networks, such as LSTMs, due to their ability to model non-linear relationships and temporal dependencies. This work focuses on a realistic scenario, using only publicly available data and a carefully selected set of features.
The project is structured in several phases. First, historical NBA game data is collected, cleaned and transformed, generating a set of characteristics representative of team performance. Based on this data, two approaches to prediction are implemented. The first consists of LSTM neural networks that exploit the sequential and chronological nature of the games. The second approach is based on the XGBoost algorithm, which models the problem as a binary classification task on tabular data.
The models are trained and evaluated following a common practice, with a temporal division of the data into training, validation and test sets. Finally, the results obtained by both approaches are compared, analysing not only their accuracy, but also other metrics and values representative of the models’ performance. The results show that, even with a limited dataset compared to more complex systems, it is possible to exceed a baseline prediction and obtain reasonably acceptable estimates of match results. The work also highlights thecritical importance of data selection and processing, and leaves open several avenues for improvement in future work. Read More