El desarrollo tradicional de fármacos exige inversiones millonarias, más de una década de trabajo e implica elevadas tasas de fracaso, de ahí el creciente interés por el reposicionamiento de fármacos, estrategia que busca asignar nuevas indicaciones terapéuticas a medicamentos ya aprobados. Sin embargo, la diversidad de modelos computacionales (basados en grafos, proximidad en redes biomoleculares o rutas multiescala) genera resultados independientes que dificultan la selección de candidatos con mayor probabilidad de éxito clínico. Este Trabajo Fin de Grado aborda esa brecha mediante el diseño y la implementación de un metamodelo de machine learning, que integra y sintetiza la información procedente de tres familias de modelos almacenados en la base de datos del proyecto DRIVE (incluyendo hipótesis de reposicionamiento generadas mediante Graph Neural Networks, Network Proximity e Information Paths). Tras una revisión exhaustiva del estado del arte, se ha construido un conjunto de datos unificado (con más de cien mil pares enfermedad-fármaco y 12 métricas predictoras), se han transformado las rutas en variables binarias y se han depurado fugas de información. Sobre este escenario claramente desbalanceado, se han evaluado diversas estrategias de muestreo y clasificadores mediante validación cruzada anidada, utilizando el F1-score como métrica principal de selección y ajuste de hiperparámetros. El flujo sin técnica de balanceo ha resultado el más robusto en cuanto a equilibrio entre estabilidad inter-fold y rendimiento en test, y, dentro de él, XGBoost el de mejor capacidad discriminativa. En alzhéimer, el modelo ha concentrado la mayor parte de los tratamientos reales en las primeras posiciones del ranking, mientras que, en esquizofrenia, la discriminación ha sido menor, lo que evidencia cómo la estructura interna de los datos condiciona el rendimiento final. La comparación con un crank score, basado en un enfoque estadístico lineal no supervisado, ha confirmado la superioridad de los métodos de machine learning para capturar relaciones complejas entre métricas heterogéneas. Los resultados han demostrado que una capa integradora de machine learning puede unificar enfoques heterogéneos y generar rankings que orienten la validación experimental, reduciendo tiempo y costes frente al desarrollo de novo. No obstante, su fiabilidad depende de la calidad de los datos, por lo que deben interpretarse como guía preliminar. Por ello, las líneas futuras incluyen ampliar las fuentes de DRIVE, explorar búsquedas de hiperparámetros más amplias e incorporar técnicas para reforzar la confianza clínica. Solo la combinación de modelos in silico expresivos con evidencias experimentales sólidas permitirá que esta aceleración teórica se traduzca en beneficios terapéuticos tangibles sin comprometer la seguridad ni la eficacia clínica. El trabajo incluye, además, un análisis de impacto personal, empresarial, social, económico, medioambiental y cultural, y alinea sus conclusiones con los Objetivos de Desarrollo Sostenible de la Agenda 2030, subrayando la necesidad de avanzar hacia una innovación farmacéutica responsable y sostenible.
ABSTRACT
Traditional drug development requires millions of dollars in investment, more than a decade of work and involves high failure rates. Hence there is growing interest in drug repurposing, a strategy that seeks to assign new therapeutic indications to already approved drugs. However, the diversity of computational models (based on graphs, proximity in biomolecular networks or multiscale pathways) generates independent results that make it difficult to select candidates with a higher probability of clinical success. This Final Degree Project addresses this gap through the design and implementation of a machine learning metamodel, which integrates and synthesises information from three families of models stored in the DRIVE project database (including repositioning hypotheses generated by Graph Neural Networks, Network Proximity and Information Paths). Following a thorough review of the state of the art, a unified dataset was constructed, comprising more than 100,000 disease-drug pairs and twelve predictor metrics. Pathways were transformed into binary variables and information leaks were cleaned. Given this clearly unbalanced scenario, several resampling strategies and classifiers have been evaluated by nested crossvalidation, using the F1-score as the main metric for hyperparameter selection and adjustment. The non-resampled workflow technique was the most robust in terms of balance between inter-fold stability and test performance, and within it, XGBoost was the one with the best discriminative capacity. In Alzheimer’s disease, the model has concentrated most of the actual treatments in the top positions of the ranking. In contrast, in schizophrenia, the discrimination has been lower, which evidences how the internal structure of the data conditions the final performance. Furthermore, the comparison with a crank score, based on an unsupervised linear statistical approach, hasconfirmed the superiority of machine learning methods for capturing complex relationships between heterogeneous metrics. Results demonstrated that an integrating machine learning layer can unify heterogeneous approaches and generate rankings to guide experimental validation, reducing time and cost compared to de novo drug development. However, their reliability depends on the quality of the data, so they should be interpreted as a preliminary guide. Future lines of work therefore include expanding DRIVE sources, exploring broader hyperparameter searches, and incorporating techniques to strengthen clinical confidence. Only the combination of expressive in silico models with robust experimental evidence will allow this theoretical acceleration to translate into tangible therapeutic benefits without compromising safety and clinical efficacy. In addition, this final project also includes an analysis of personal, business, societal, economic, environmental and cultural impact, and aligns its conclusions with the Sustainable Development Goals of the 2030 Agenda, thereby underlining the need to move towards responsible and sustainable pharmaceutical innovation.
El desarrollo tradicional de fármacos exige inversiones millonarias, más de una década de trabajo e implica elevadas tasas de fracaso, de ahí el creciente interés por el reposicionamiento de fármacos, estrategia que busca asignar nuevas indicaciones terapéuticas a medicamentos ya aprobados. Sin embargo, la diversidad de modelos computacionales (basados en grafos, proximidad en redes biomoleculares o rutas multiescala) genera resultados independientes que dificultan la selección de candidatos con mayor probabilidad de éxito clínico. Este Trabajo Fin de Grado aborda esa brecha mediante el diseño y la implementación de un metamodelo de machine learning, que integra y sintetiza la información procedente de tres familias de modelos almacenados en la base de datos del proyecto DRIVE (incluyendo hipótesis de reposicionamiento generadas mediante Graph Neural Networks, Network Proximity e Information Paths). Tras una revisión exhaustiva del estado del arte, se ha construido un conjunto de datos unificado (con más de cien mil pares enfermedad-fármaco y 12 métricas predictoras), se han transformado las rutas en variables binarias y se han depurado fugas de información. Sobre este escenario claramente desbalanceado, se han evaluado diversas estrategias de muestreo y clasificadores mediante validación cruzada anidada, utilizando el F1-score como métrica principal de selección y ajuste de hiperparámetros. El flujo sin técnica de balanceo ha resultado el más robusto en cuanto a equilibrio entre estabilidad inter-fold y rendimiento en test, y, dentro de él, XGBoost el de mejor capacidad discriminativa. En alzhéimer, el modelo ha concentrado la mayor parte de los tratamientos reales en las primeras posiciones del ranking, mientras que, en esquizofrenia, la discriminación ha sido menor, lo que evidencia cómo la estructura interna de los datos condiciona el rendimiento final. La comparación con un crank score, basado en un enfoque estadístico lineal no supervisado, ha confirmado la superioridad de los métodos de machine learning para capturar relaciones complejas entre métricas heterogéneas. Los resultados han demostrado que una capa integradora de machine learning puede unificar enfoques heterogéneos y generar rankings que orienten la validación experimental, reduciendo tiempo y costes frente al desarrollo de novo. No obstante, su fiabilidad depende de la calidad de los datos, por lo que deben interpretarse como guía preliminar. Por ello, las líneas futuras incluyen ampliar las fuentes de DRIVE, explorar búsquedas de hiperparámetros más amplias e incorporar técnicas para reforzar la confianza clínica. Solo la combinación de modelos in silico expresivos con evidencias experimentales sólidas permitirá que esta aceleración teórica se traduzca en beneficios terapéuticos tangibles sin comprometer la seguridad ni la eficacia clínica. El trabajo incluye, además, un análisis de impacto personal, empresarial, social, económico, medioambiental y cultural, y alinea sus conclusiones con los Objetivos de Desarrollo Sostenible de la Agenda 2030, subrayando la necesidad de avanzar hacia una innovación farmacéutica responsable y sostenible.
ABSTRACT
Traditional drug development requires millions of dollars in investment, more than a decade of work and involves high failure rates. Hence there is growing interest in drug repurposing, a strategy that seeks to assign new therapeutic indications to already approved drugs. However, the diversity of computational models (based on graphs, proximity in biomolecular networks or multiscale pathways) generates independent results that make it difficult to select candidates with a higher probability of clinical success. This Final Degree Project addresses this gap through the design and implementation of a machine learning metamodel, which integrates and synthesises information from three families of models stored in the DRIVE project database (including repositioning hypotheses generated by Graph Neural Networks, Network Proximity and Information Paths). Following a thorough review of the state of the art, a unified dataset was constructed, comprising more than 100,000 disease-drug pairs and twelve predictor metrics. Pathways were transformed into binary variables and information leaks were cleaned. Given this clearly unbalanced scenario, several resampling strategies and classifiers have been evaluated by nested crossvalidation, using the F1-score as the main metric for hyperparameter selection and adjustment. The non-resampled workflow technique was the most robust in terms of balance between inter-fold stability and test performance, and within it, XGBoost was the one with the best discriminative capacity. In Alzheimer’s disease, the model has concentrated most of the actual treatments in the top positions of the ranking. In contrast, in schizophrenia, the discrimination has been lower, which evidences how the internal structure of the data conditions the final performance. Furthermore, the comparison with a crank score, based on an unsupervised linear statistical approach, hasconfirmed the superiority of machine learning methods for capturing complex relationships between heterogeneous metrics. Results demonstrated that an integrating machine learning layer can unify heterogeneous approaches and generate rankings to guide experimental validation, reducing time and cost compared to de novo drug development. However, their reliability depends on the quality of the data, so they should be interpreted as a preliminary guide. Future lines of work therefore include expanding DRIVE sources, exploring broader hyperparameter searches, and incorporating techniques to strengthen clinical confidence. Only the combination of expressive in silico models with robust experimental evidence will allow this theoretical acceleration to translate into tangible therapeutic benefits without compromising safety and clinical efficacy. In addition, this final project also includes an analysis of personal, business, societal, economic, environmental and cultural impact, and aligns its conclusions with the Sustainable Development Goals of the 2030 Agenda, thereby underlining the need to move towards responsible and sustainable pharmaceutical innovation. Read More


