El cáncer de pulmón representa una de las principales causas de muerte a nivel mundial, siendo responsable de un alto porcentaje de diagnósticos y fallecimientos por cáncer, particularmente debido a su detección tardía y a factores de riesgo aún poco comprendidos. Si bien el tabaquismo es identificado como la causa principal, un número creciente de casos en personas no fumadoras ha impulsado la investigación sobre otros factores de riesgo, especialmente los ambientales. Entre estos, la exposición a pequeñas partículas que se encuentran en el aire con un diámetro de máximo 2,5 micrómetros (PM2.5) han demostrado tener una relación significativa con el desarrollo del cáncer pulmonar.
Este Trabajo Final de Máster propone el desarrollo de un modelo de aprendizaje automático que permita identificar y analizar correlaciones entre variables ambientales, exposición a sustancias químicas y la incidencia del cáncer de pulmón en diferentes regiones geográficas. Para ello, se realiza una revisión del estado del arte sobre los factores de riesgo del cáncer de pulmón, se recopilan datos ambientales y epidemiológicos, y se aplica una metodología que incluye el preprocesamiento de datos, el entrenamiento de modelos supervisados, y la evaluación de su rendimiento mediante métricas específicas.
De acuerdo con la evaluación realizada, aunque la regresión lineal ofrece la mayor transparencia para interpretar patrones geográficos, el modelo de Random Forest resulta más eficaz para revelar la influencia de los contaminantes ambientales gracias a su capacidad para capturar relaciones no lineales. Por otro lado, XGBoost logra el mejor equilibrio entre precisión predictiva e interpretabilidad, siendo un modelo fiable, a pesar de un leve compromiso en términos de interpretabilidad.
Gracias a los resultados obtenidos, se puede determinar el modelo más adecuado a utilizar según el objetivo del análisis, ya sea profundizar en la interpretación, evaluar el impacto de contaminantes ambientales o maximizar la precisión predictiva. Esta información facilita una selección informada de la herramienta más eficaz para cada caso, contribuyendo a optimizar la toma de decisiones en salud pública y a diseñar estrategias preventivas.
–ABSTRACT–
Lung cancer remains one of the leading causes of cancer-related deaths worldwide, primarily due to late-stage diagnoses and limited understanding of various contributing risk factors. While smoking is identified as the primary cause, a growing number of cases in non-smokers has driven research into other risk factors, especially environmental ones. Among these, exposure to fine particles in the air with a diameter of up to 2.5 micrometers (PM2.5) has been shown to have a significant relationship with the development of lung cancer.
This Masters Final Project aims to develop a machine learning model capable of identifying and analyzing correlations between environmental variables, chemical exposure, and lung cancer incidence across different geographic regions. The research involves a comprehensive review of current knowledge on lung cancer risk factors, collection and preprocessing of environmental and epidemiological data, and the implementation of supervised machine learning techniques to uncover complex interactions that traditional statistical approaches may overlook.
According to the evaluation conducted, although linear regression offers the greatest transparency for interpreting geographic patterns, the Random Forest model proves more effective in revealing the influence of environmental pollutants due to its ability to capture non-linear relationships. On the other hand, XGBoost achieves the best balance between predictive accuracy and interpretability, being a reliable model despite a slight trade-off in terms of explainability.
Thanks to the results obtained, it is possible to determine the most appropriate model to use depending on the objective of the analysis, whether it is to deepen interpretation, evaluate the impact of environmental pollutants, or maximize predictive accuracy. This information facilitates an informed selection of the most effective tool for each case, contributing to optimizing decision-making in public health and designing preventive strategies.
El cáncer de pulmón representa una de las principales causas de muerte a nivel mundial, siendo responsable de un alto porcentaje de diagnósticos y fallecimientos por cáncer, particularmente debido a su detección tardía y a factores de riesgo aún poco comprendidos. Si bien el tabaquismo es identificado como la causa principal, un número creciente de casos en personas no fumadoras ha impulsado la investigación sobre otros factores de riesgo, especialmente los ambientales. Entre estos, la exposición a pequeñas partículas que se encuentran en el aire con un diámetro de máximo 2,5 micrómetros (PM2.5) han demostrado tener una relación significativa con el desarrollo del cáncer pulmonar.
Este Trabajo Final de Máster propone el desarrollo de un modelo de aprendizaje automático que permita identificar y analizar correlaciones entre variables ambientales, exposición a sustancias químicas y la incidencia del cáncer de pulmón en diferentes regiones geográficas. Para ello, se realiza una revisión del estado del arte sobre los factores de riesgo del cáncer de pulmón, se recopilan datos ambientales y epidemiológicos, y se aplica una metodología que incluye el preprocesamiento de datos, el entrenamiento de modelos supervisados, y la evaluación de su rendimiento mediante métricas específicas.
De acuerdo con la evaluación realizada, aunque la regresión lineal ofrece la mayor transparencia para interpretar patrones geográficos, el modelo de Random Forest resulta más eficaz para revelar la influencia de los contaminantes ambientales gracias a su capacidad para capturar relaciones no lineales. Por otro lado, XGBoost logra el mejor equilibrio entre precisión predictiva e interpretabilidad, siendo un modelo fiable, a pesar de un leve compromiso en términos de interpretabilidad.
Gracias a los resultados obtenidos, se puede determinar el modelo más adecuado a utilizar según el objetivo del análisis, ya sea profundizar en la interpretación, evaluar el impacto de contaminantes ambientales o maximizar la precisión predictiva. Esta información facilita una selección informada de la herramienta más eficaz para cada caso, contribuyendo a optimizar la toma de decisiones en salud pública y a diseñar estrategias preventivas.
–ABSTRACT–
Lung cancer remains one of the leading causes of cancer-related deaths worldwide, primarily due to late-stage diagnoses and limited understanding of various contributing risk factors. While smoking is identified as the primary cause, a growing number of cases in non-smokers has driven research into other risk factors, especially environmental ones. Among these, exposure to fine particles in the air with a diameter of up to 2.5 micrometers (PM2.5) has been shown to have a significant relationship with the development of lung cancer.
This Masters Final Project aims to develop a machine learning model capable of identifying and analyzing correlations between environmental variables, chemical exposure, and lung cancer incidence across different geographic regions. The research involves a comprehensive review of current knowledge on lung cancer risk factors, collection and preprocessing of environmental and epidemiological data, and the implementation of supervised machine learning techniques to uncover complex interactions that traditional statistical approaches may overlook.
According to the evaluation conducted, although linear regression offers the greatest transparency for interpreting geographic patterns, the Random Forest model proves more effective in revealing the influence of environmental pollutants due to its ability to capture non-linear relationships. On the other hand, XGBoost achieves the best balance between predictive accuracy and interpretability, being a reliable model despite a slight trade-off in terms of explainability.
Thanks to the results obtained, it is possible to determine the most appropriate model to use depending on the objective of the analysis, whether it is to deepen interpretation, evaluate the impact of environmental pollutants, or maximize predictive accuracy. This information facilitates an informed selection of the most effective tool for each case, contributing to optimizing decision-making in public health and designing preventive strategies. Read More


