Resumen Este Trabajo de Fin de Grado aborda un análisis integral del fútbol profesional, combinando datos de rendimiento deportivo y valores económicos centrados en la temporada 2015/16 del Campeonato Nacional de Liga de Primera División (conocido comercialmente como LaLiga EA Sports). Para ello se utilizan dos fuentes complementarias: StatsBomb, que proporciona información detallada sobre eventos ocurridos durante los partidos, y Transfermarkt, con datos económicos y de mercado de los jugadores.
La fusión de ambas bases de datos implica un proceso complejo de limpieza, transformación y validación, debido a sus diferentes estructuras, nomenclaturas y sistemas de identificación. Esta preparación de datos constituye el principal reto técnico del proyecto.
Una vez consolidada la base de datos, se aplica una metodología de clustering basada en los algoritmos K-Means y K-Nearest Neighbors (KNN) para agrupar a los futbolistas en función de características técnicas, tácticas y económicas. Los grupos resultantes permiten construir perfiles de jugadores que sirven como base para una herramienta de recomendación de fichajes.
Paralelamente, se desarrolla un sistema de predicción de eventos mediante modelos de series temporales (ARIMA y ARIMAX), centrado en prever goles y asistencias. La inclusión de variables exógenas como la calidad del rival o la importancia del partido mejora significativamente la capacidad predictiva de los modelos.
La principal aportación del trabajo radica en la integración simultánea de métricas deportivas y económicas, superando el enfoque unidimensional habitual en muchos estudios. Esta visión holística permite generar recomendaciones más aplicables a la toma de decisiones en contextos reales del fútbol profesional, tanto en scouting como en el área de planificación táctica.
Abstract
This Final Degree Project provides a comprehensive analysis of professional soccer, combining sports performance data and economic values focused on the 2015/16 season of the First Division National League Championship (commercially known as LaLiga EA Sports). Two complementary sources are used for this purpose: StatsBomb, which provides detailed information on events that occur during matches, and Transfermarkt, which provides economic and market data on players.
Merging these two databases involves a complex process of cleaning, transformation, and validation due to their different structures, nomenclatures, and identification systems. This data preparation is the main technical challenge of the project.
Once the database has been consolidated, a clustering methodology based on the K-Means and K-Nearest Neighbors (KNN) algorithms is applied to group players according to technical, tactical, and economic characteristics. The resulting groups allow player profiles to be constructed, which serve as the basis for a transfer recommendation tool.
At the same time, an event prediction system is developed using time series models (ARIMA and ARIMAX), focused on predicting goals and assists. The inclusion of exogenous variables such as the quality of the opponent or the importance of the match significantly improves the predictive capacity of the models.
The main contribution of this work lies in the simultaneous integration of sports and economic metrics, overcoming the one-dimensional approach common in many studies. This holistic view allows for the generation of recommendations that are more applicable to decision-making in real-world professional soccer contexts, both in scouting and in tactical planning.
Resumen Este Trabajo de Fin de Grado aborda un análisis integral del fútbol profesional, combinando datos de rendimiento deportivo y valores económicos centrados en la temporada 2015/16 del Campeonato Nacional de Liga de Primera División (conocido comercialmente como LaLiga EA Sports). Para ello se utilizan dos fuentes complementarias: StatsBomb, que proporciona información detallada sobre eventos ocurridos durante los partidos, y Transfermarkt, con datos económicos y de mercado de los jugadores.
La fusión de ambas bases de datos implica un proceso complejo de limpieza, transformación y validación, debido a sus diferentes estructuras, nomenclaturas y sistemas de identificación. Esta preparación de datos constituye el principal reto técnico del proyecto.
Una vez consolidada la base de datos, se aplica una metodología de clustering basada en los algoritmos K-Means y K-Nearest Neighbors (KNN) para agrupar a los futbolistas en función de características técnicas, tácticas y económicas. Los grupos resultantes permiten construir perfiles de jugadores que sirven como base para una herramienta de recomendación de fichajes.
Paralelamente, se desarrolla un sistema de predicción de eventos mediante modelos de series temporales (ARIMA y ARIMAX), centrado en prever goles y asistencias. La inclusión de variables exógenas como la calidad del rival o la importancia del partido mejora significativamente la capacidad predictiva de los modelos.
La principal aportación del trabajo radica en la integración simultánea de métricas deportivas y económicas, superando el enfoque unidimensional habitual en muchos estudios. Esta visión holística permite generar recomendaciones más aplicables a la toma de decisiones en contextos reales del fútbol profesional, tanto en scouting como en el área de planificación táctica.
Abstract
This Final Degree Project provides a comprehensive analysis of professional soccer, combining sports performance data and economic values focused on the 2015/16 season of the First Division National League Championship (commercially known as LaLiga EA Sports). Two complementary sources are used for this purpose: StatsBomb, which provides detailed information on events that occur during matches, and Transfermarkt, which provides economic and market data on players.
Merging these two databases involves a complex process of cleaning, transformation, and validation due to their different structures, nomenclatures, and identification systems. This data preparation is the main technical challenge of the project.
Once the database has been consolidated, a clustering methodology based on the K-Means and K-Nearest Neighbors (KNN) algorithms is applied to group players according to technical, tactical, and economic characteristics. The resulting groups allow player profiles to be constructed, which serve as the basis for a transfer recommendation tool.
At the same time, an event prediction system is developed using time series models (ARIMA and ARIMAX), focused on predicting goals and assists. The inclusion of exogenous variables such as the quality of the opponent or the importance of the match significantly improves the predictive capacity of the models.
The main contribution of this work lies in the simultaneous integration of sports and economic metrics, overcoming the one-dimensional approach common in many studies. This holistic view allows for the generation of recommendations that are more applicable to decision-making in real-world professional soccer contexts, both in scouting and in tactical planning. Read More


