En los últimos años, la investigación sobre el cáncer de pulmón ha generado enormes volúmenes de datos biomédicos dispersos en múltiples repositorios, lo que dificulta la identificación de factores de riesgo y relaciones biológicas relevantes. Los grafos de conocimiento ofrecen un marco para integrar información heterogénea en una misma estructura, mientras que las Graph Neural Networks (GNN) han demostrado un gran potencial para extraer conocimiento de grafos complejos, al aprender representaciones que conservan la topología y las interacciones entre entidades. Este Trabajo de Fin de Grado aprovecha dicha sinergia para aplicar GNN a un grafo de conocimiento biomédico previamente construido, con el objetivo de descubrir asociaciones inéditas y posibles factores de riesgo asociados al cáncer de pulmón. Partiendo de un subgrafo enfocado en once clases clave del dominio, se ha procedido a extraer las tripletas relevantes mediante consultas SPARQL. Tras limpiar identificadores, generar las relaciones inversas y transformar las listas de adyacencia en tensores. A continuación, se ha desarrollado un modelo híbrido que combina reglas simbólicas extraídas con AnyBURL y una red neuronal de grafos basada en GCNConv. Dicha integración permite que las predicciones se sustenten tanto en patrones explícitos (reglas lógicas) como en las representaciones latentes aprendidas por la GNN. El modelo resultante ha sido entrenado mediante muestreo negativo y validado con métricas estándar de predicción de enlaces (Mean Reciprocal Rank y Hits@K). Los resultados muestran un rendimiento competitivo. Además, el análisis cualitativo de las predicciones han resaltado asociaciones biológicas interesantes que coinciden con la literatura biomédica y sugieren nuevas hipótesis que podrían guiar investigaciones clínicas futuras.
ABSTRACT
In recent years, lung cancer research has generated huge volumes of biomedical data scattered across multiple repositories, making it difficult to identify relevant risk factors and biological relationships. Knowledge graphs offer a framework for integrating heterogeneous information into a single structure, while Graph Neural Networks (GNNs) have shown great potential for extracting knowledge from complex graphs by learning topology-preserving representations and interactions between entities. This thesis takes advantage of this synergy to apply GNNs to a previously constructed biomedical knowledge graph, with the aim of discovering unpublished associations and possible risk factors associated with lung cancer. Starting from a subgraph focused on eleven key classes of the domain, we proceeded to extract the relevant triples by means of SPARQL queries. After cleaning identifiers, generating the inverse relations and transforming the adjacency lists into tensors. Then, a hybrid model has been developed combining symbolic rules extracted with AnyBURL and a graph neural network based on GCNConv. This integration allows predictions to be based on both explicit patterns (logical rules) and latent representations learned by the GNN. The resulting model has been trained by negative sampling and validated with standard link prediction metrics (Mean Reciprocal Rank and Hits@K). The results show a competitive performance. In addition, qualitative analysis of the predictions have highlighted interesting biological associations that are consistent with the biomedical literature and suggest new hypotheses that could guide future clinical research.
En los últimos años, la investigación sobre el cáncer de pulmón ha generado enormes volúmenes de datos biomédicos dispersos en múltiples repositorios, lo que dificulta la identificación de factores de riesgo y relaciones biológicas relevantes. Los grafos de conocimiento ofrecen un marco para integrar información heterogénea en una misma estructura, mientras que las Graph Neural Networks (GNN) han demostrado un gran potencial para extraer conocimiento de grafos complejos, al aprender representaciones que conservan la topología y las interacciones entre entidades. Este Trabajo de Fin de Grado aprovecha dicha sinergia para aplicar GNN a un grafo de conocimiento biomédico previamente construido, con el objetivo de descubrir asociaciones inéditas y posibles factores de riesgo asociados al cáncer de pulmón. Partiendo de un subgrafo enfocado en once clases clave del dominio, se ha procedido a extraer las tripletas relevantes mediante consultas SPARQL. Tras limpiar identificadores, generar las relaciones inversas y transformar las listas de adyacencia en tensores. A continuación, se ha desarrollado un modelo híbrido que combina reglas simbólicas extraídas con AnyBURL y una red neuronal de grafos basada en GCNConv. Dicha integración permite que las predicciones se sustenten tanto en patrones explícitos (reglas lógicas) como en las representaciones latentes aprendidas por la GNN. El modelo resultante ha sido entrenado mediante muestreo negativo y validado con métricas estándar de predicción de enlaces (Mean Reciprocal Rank y Hits@K). Los resultados muestran un rendimiento competitivo. Además, el análisis cualitativo de las predicciones han resaltado asociaciones biológicas interesantes que coinciden con la literatura biomédica y sugieren nuevas hipótesis que podrían guiar investigaciones clínicas futuras.
ABSTRACT
In recent years, lung cancer research has generated huge volumes of biomedical data scattered across multiple repositories, making it difficult to identify relevant risk factors and biological relationships. Knowledge graphs offer a framework for integrating heterogeneous information into a single structure, while Graph Neural Networks (GNNs) have shown great potential for extracting knowledge from complex graphs by learning topology-preserving representations and interactions between entities. This thesis takes advantage of this synergy to apply GNNs to a previously constructed biomedical knowledge graph, with the aim of discovering unpublished associations and possible risk factors associated with lung cancer. Starting from a subgraph focused on eleven key classes of the domain, we proceeded to extract the relevant triples by means of SPARQL queries. After cleaning identifiers, generating the inverse relations and transforming the adjacency lists into tensors. Then, a hybrid model has been developed combining symbolic rules extracted with AnyBURL and a graph neural network based on GCNConv. This integration allows predictions to be based on both explicit patterns (logical rules) and latent representations learned by the GNN. The resulting model has been trained by negative sampling and validated with standard link prediction metrics (Mean Reciprocal Rank and Hits@K). The results show a competitive performance. In addition, qualitative analysis of the predictions have highlighted interesting biological associations that are consistent with the biomedical literature and suggest new hypotheses that could guide future clinical research. Read More


