Interpretable hybrid models for tabular data: integrating Kolmogorov–Arnold and convolutional networks via synthetic images

Please login to bookmark

Los enfoques en modelos híbridos que integran datos tabulares con representaciones en forma de imágenes sintéticas han despertado un interés considerable en los últimos años, impulsados por la ambición de aprovechar tanto el razonamiento espacial como el simbólico para mejorar el rendimiento y la interpretabilidad. Los trabajos iniciales exploraron pipelines basados puramente en Redes Neuronales Convolucionales (CNNs), utilizando imágenes sintéticas generadas mediante métodos como IGTD [1], REFINED [2] o TINTO [3], bajo la premisa de que las CNNs pueden explotar correlaciones espaciales que no son fácilmente evidentes en los formatos tabulares en bruto. Sin embargo, estas soluciones a menudo sacrificaban información crucial sobre los procesos de toma de decisiones del modelo. Investigaciones más recientes han evolucionado hacia arquitecturas híbridas que combinan representaciones espaciales derivadas de CNNs con entradas tabulares procesadas mediante Perceptrones Multicapa (MLPs) tradicionales o redes alternativas, buscando no solo mejoras predictivas, sino también vías hacia la explicabilidad [4]–[6]. En paralelo, las Kolmogorov–Arnold Networks (KANs) han surgido como un reemplazo innovador de los MLPs, ofreciendo un rendimiento competitivo con menos hiperparámetros y una interpretabilidad inherente gracias a sus mecanismos basados en splines [7], [8].
En este contexto, esta tesis propone una nueva arquitectura híbrida que combina CNNs entrenadas sobre imágenes sintéticas con componentes KAN para modelar datos tabulares, formando así un sistema híbrido CNN–KAN flexible e interpretable. Para evaluar la viabilidad de esta arquitectura, se realizaron experimentos sobre cuatro conjuntos de datos de tamaño pequeño a mediano, abarcando tanto tareas de regresión como de clasificación. Los conjuntos de datos se seleccionaron a partir de estudios previos para asegurar la disponibilidad de particiones establecidas y resultados base, permitiendo así una comparación centrada en las innovaciones de modelado en lugar de en la preparación de datos. Los pasos de preprocesamiento se limitaron al tratamiento de valores faltantes y a la normalización, acompañados de breves análisis de correlación para investigar posibles relaciones entre las dependencias de las variables y los resultados del modelo híbrido. Se probaron tres métodos de generación de imágenes sintéticas —IGTD, REFINED y TINTO— en cada conjunto de datos, aumentando progresivamente en complejidad y ofreciendo representaciones espaciales diversas de las características tabulares.
La arquitectura propuesta se estructuró en torno a un diseño de doble rama, donde una rama procesaba los datos tabulares en bruto mediante un componente KAN denominado kan_branch, mientras que la otra utilizaba una serie de bloques CNN para procesar las imágenes sintéticas, denominada cnn_branch. Las salidas de ambas ramas se concatenaban y alimentan a una capa final_kan, diseñada para ar monizar los espacios de características y capturar patrones complementarios. Para refinar aún más el equilibrio entre ambas ramas, se exploraron cuatro estrategias de concatenación, orientadas a controlar la relevancia de cada rama y a mejorar el rendimiento predictivo. Inspirado en el pipeline de entrenamiento de la librería pykan, esta se adaptó para dar soporte a la estructura híbrida, empleando el optimizador LBFGS en modo full-batch y utilizando el Error Cuadrático Medio (MSE) como función de pérdida. Esta configuración, aunque inicialmente diseñada para tareas de regresión, mostró resultados sólidos incluso en tareas de clasificación, validando así su versatilidad. Teniendo así una sola neurona para el resultado final del modelo híbrido CNN-KAN.
Más allá del rendimiento, esta tesis otorga un énfasis significativo a la interpretabilidad y explicabilidad. Los componentes KAN proporcionaron puntuaciones simbólicas de las características, lo que permitió una inspección directa de las contribuciones de cada variable dentro del sistema híbrido. Paralelamente, se empleó Grad-CAM [9] para visualizar atribuciones espaciales en la rama CNN, revelando aspectos como la influencia de “píxeles extra” adyacentes a regiones críticas de las características, fenómeno especialmente evidente en las imágenes generadas con TINTO. Sin embargo, se observó que arquitecturas CNN más simples, en ocasiones, tenían dificultades para centrarse en las características relevantes cuando se enfrentaban a imágenes sintéticas de alta resolución que contenían numerosos píxeles no informativos. Una contribución innovadora de este trabajo fue la introducción del Global Feature Score, una métrica unificada que combina las puntuaciones normalizadas de las características provenientes de la kan_branch con las salidas de Grad-CAM de la cnn_branch, ponderadas según la relevancia de cada rama. Esta métrica busca generar un ranking integrado de importancia de características, proporcionando una visión holística del proceso de toma de decisiones en modelos híbridos.
Los resultados empíricos demostraron que la arquitectura híbrida CNN–KAN logró de manera constante un rendimiento competitivo o superior en comparación con los modelos CNN o KAN independientes en la mayoría de los conjuntos de datos, conf irmando el potencial de combinar razonamiento simbólico y espacial. La metodología basada enGridSearchs permitió identificar configuraciones óptimas de hiperparámetros, manteniendo el enfoque en la simplicidad del modelo, ya que el híbrido logró resultados sólidos con relativamente pocos hiperparámetros —especialmente en los componentes KAN. Aunque ciertos métodos de generación de imágenes sintéticas, como REFINED, ofrecieron ventajas en conjuntos de datos específicos, no surgió un único método que fuese superior de forma universal, lo que subraya la importancia de realizar experimentación específica para cada conjunto de datos. Cabe destacar que el análisis de relevancia reveló que, pese a los esfuerzos por equilibrar las contribuciones, la rama CNN solía dominar la influencia predictiva, aunque estrategias de concatenación específicas (particularmente las Estrategias 1 y 2) ofrecieron mejoras moderadas para distribuir mejor dicha relevancia entre las ramas.
Los análisis de interpretabilidad confirmaron el valor de combinar múltiples técnicas explicativas, revelando señales coincidentes entre la relevancia simbólica procedente de la vía KAN y las percepciones espaciales derivadas de Grad-CAM. En varios casos, las mismas características emergieron como influyentes en ambas modalidades, reforzando la confianza en las conclusiones del modelo híbrido, sin embargo los patrones detectados eran específicos para cada conjunto de datos. Además, el Global Feature Score mostró una alineación prometedora con los resultados individuales de Grad-CAM, lo que sugiere que capta de manera precisa la importancia de las características, en lugar de introducir discrepancias arbitrarias.
En conclusión, esta tesis validó con éxito la arquitectura híbrida CNN–KAN como un enfoque eficaz para modelar datos tabulares y sus representaciones sintéticas, aportando tanto un alto rendimiento como transparencia sobre la relevancia de las características. El marco metodológico propuesto —que incluye el procedimiento de entrenamiento personalizado, las estrategias de concatenación y el Global Feature Score— constituye una base sólida para futuras investigaciones en sistemas neuronales híbridos. Las líneas de investigación futura incluyen la aplicación de este marco a conjuntos de datos más grandes y complejos, la experimentación con métodos de optimización alternativos más allá de LBFGS, la integración de otras herramientas de interpretabilidad como SHAP [10] o LIME [11], y el desarrollo de mecanismos avanzados de concatenación que permitan equilibrar mejor las contribuciones de las ramas, manteniendo o incluso mejorando el rendimiento predictivo. Este trabajo constituye así un paso significativo hacia arquitecturas neuronales que no solo sean potentes, sino también interpretables y transparentes en sus procesos de toma de decisiones.
—ABSTRACT—
The integration of symbolic and spatial reasoning has emerged as a compelling direction in tabular data modeling, driven by the promise of hybrid neural architectures that combine the strengths of both domains. This thesis proposes a novel hybrid framework that merges Convolutional Neural Networks (CNNs), trained on synthetic images of tabular data, with Kolmogorov–Arnold Networks (KANs), an interpretable alternative to traditional Multi-Layer Perceptrons. The hybrid CNN–KAN model aims not only to improve predictive performance but also to provide transparent insights into how features and architectural branches contribute to its decisions. The study employs a structured methodology across multiple small- to medium-sized datasets, testing various synthetic image generation techniques—IGTD, REFINED, and TINTO—and evaluating different concatenation strategies to balance the influence of each model component.
Experimental results demonstrate that the CNN–KAN hybrid consistently outperforms standalone CNN and KAN models in most cases, achieving high performance with relatively few hyperparameters, especially in the KAN components. Beyond metrics, the thesis introduces the Global Feature Score, a unified interpretability metric that combines symbolic relevance from KANs with spatial insights from Grad-CAM. This score effectively aligns with known model behaviors, reinforcing confidence in its explanatory power. The findings confirm that hybrid architectures can deliver not only superior predictive outcomes but also meaningful interpretability, positioning CNN–KAN models as a promising avenue for future research in explainable tabular data analysis.

Interpretable hybrid models for tabular data: integrating Kolmogorov–Arnold and convolutional networks via synthetic images

Continuar buscando...

Nueva Información Actualizada

Related posts: