Evaluación y estudio de la interpretabilidad de redes Kolmogorov-Arnold en la generación de datos tabulares sintéticos

Bookmark (0)
Please login to bookmark Close

Durante los últimos años, la generación de datos sintéticos se ha convertido en una herramienta esencial para facilitar el entrenamiento de modelos de aprendizaje automático en contextos donde los datos reales son escasos, sensibles o inaccesibles. Modelos como CTGAN y TVAE han sido ampliamente adoptados por su capacidad para capturar y replicar distribuciones complejas de datos tabulares, permitiendo preservar la privacidad y mitigar la escasez de datos reales. Sin embargo, estas arquitecturas están basadas en redes neuronales profundas tradicionales, lo que limita su interpretabilidad y dificulta la validación transparente del proceso de generación. Este proyecto propone como solución a este problema la incorporación de Redes KolmogorovArnold (KANs) en modelos generativos de datos sintéticos tabulares. Estas redes, inspiradas en el teorema de representación de Kolmogorov-Arnold, reemplazan los pesos escalares tradicionales por funciones univariantes aprendibles (splines), situadas en los bordes entre nodos. Esta arquitectura nos permite descomponer funciones multivariantes complejas en representaciones más simples y comprensibles, facilitando de esta forma tanto la interpretación del modelo como la extracción simbólica de reglas matemáticas. El objetivo general del trabajo es implementar y evaluar una arquitectura generativa basada en KANs, que mantenga la precisión de los modelos generativos existentes como CTGAN o TVAE, pero que además aporte explicaciones interpretables sobre el proceso de generación de datos. Esto es especialmente relevante en sectores como el biomédico, donde la trazabilidad, la validez y la transparencia de los datos sintéticos son requisitos fundamentales para su adopción segura. Se desarrollará una arquitectura generativa basada en KANs, entrenada y evaluada sobre conjuntos de datos tabulares y se analizará su rendimiento en términos de fidelidad estadística, diversidad, realismo y coherencia, así como su capacidad de explicación global y local del proceso generativo

​Durante los últimos años, la generación de datos sintéticos se ha convertido en una herramienta esencial para facilitar el entrenamiento de modelos de aprendizaje automático en contextos donde los datos reales son escasos, sensibles o inaccesibles. Modelos como CTGAN y TVAE han sido ampliamente adoptados por su capacidad para capturar y replicar distribuciones complejas de datos tabulares, permitiendo preservar la privacidad y mitigar la escasez de datos reales. Sin embargo, estas arquitecturas están basadas en redes neuronales profundas tradicionales, lo que limita su interpretabilidad y dificulta la validación transparente del proceso de generación. Este proyecto propone como solución a este problema la incorporación de Redes KolmogorovArnold (KANs) en modelos generativos de datos sintéticos tabulares. Estas redes, inspiradas en el teorema de representación de Kolmogorov-Arnold, reemplazan los pesos escalares tradicionales por funciones univariantes aprendibles (splines), situadas en los bordes entre nodos. Esta arquitectura nos permite descomponer funciones multivariantes complejas en representaciones más simples y comprensibles, facilitando de esta forma tanto la interpretación del modelo como la extracción simbólica de reglas matemáticas. El objetivo general del trabajo es implementar y evaluar una arquitectura generativa basada en KANs, que mantenga la precisión de los modelos generativos existentes como CTGAN o TVAE, pero que además aporte explicaciones interpretables sobre el proceso de generación de datos. Esto es especialmente relevante en sectores como el biomédico, donde la trazabilidad, la validez y la transparencia de los datos sintéticos son requisitos fundamentales para su adopción segura. Se desarrollará una arquitectura generativa basada en KANs, entrenada y evaluada sobre conjuntos de datos tabulares y se analizará su rendimiento en términos de fidelidad estadística, diversidad, realismo y coherencia, así como su capacidad de explicación global y local del proceso generativo Read More