El uso de imágenes médicas como las tomografías de coherencia óptica (OCT) y las fotografías del fondo de ojo (fundus) resulta fundamental en el diagnóstico y seguimiento de enfermedades oculares. Estas modalidades ofrecen información complementaria: mientras las imágenes fundus permiten visualizar la superficie de la retina, las OCT proporcionan una vista transversal que revela detalles estructurales en profundidad. Sin embargo, interpretar estas imágenes de forma precisa requiere experiencia clínica, y su análisis de forma manual puede ser propenso a errores. La aplicación de técnicas de inteligencia artificial puede contribuir significativamente a la automatización del diagnóstico médico, ofreciendo apoyo a los especialistas, mejorando la eficiencia del proceso y facilitando el acceso a un diagnóstico asistido en centros con recursos limitados. En este contexto, la combinación de información multimodal a través de algoritmos de aprendizaje profundo representa una línea de investigación prometedora. Este Trabajo de Fin de Grado propone como baseline que la combinación de imágenes fundus y OCT, mediante estrategias de fusión de características, permite mejorar el rendimiento de los modelos frente al uso individual de cada modalidad. Para ello, se exploran diferentes técnicas de fusión (early, intermediate y late fusion) empleando como extractores de características los modelos DINOv2 y CLIP, entrenados sobre un conjunto de datos de imágenes fundus y OCT. La metodología desarrollada abarca desde el preprocesamiento de los datos, el diseño de los modelos, el entrenamiento y validación de los mismos, hasta la evaluación utilizando métricas estándar en clasificación multiclase. Asimismo, se incluyen análisis detallados de errores, matrices de confusión y ejemplos visuales que permiten interpretar mejor el comportamiento de los modelos. Los resultados muestran que los mejores rendimientos se alcanzan en configuraciones individuales, como fundus individual con DINOv2 (F1-score= 0.79, AUC= 0.94) o fundus con CLIP (F1-score= 0.81, AUC= 0.95), lo que evidencia la solidez de estas modalidades por separado en tareas de clasificación médica. No obstante, algunos modelos de fusión, como la early fusion e intermediate fusion con DINOv2, han ofrecido resultados competitivos, alcanzando valores de AUC cercanos a 0.90. Estos hallazgos permiten valorar el potencial de la integración multimodal como vía de mejora en determinados escenarios clínicos.
ABSTRACT
The use of medical imaging such as optical coherence tomography (OCT) and fundus photography is essential in the diagnosis and follow-up of ocular diseases. These modalities offer complementary information: while fundus images allow visualization of the retinal surface, OCT provides a cross-sectional view that reveals structural details in depth. However, interpreting these images accurately requires clinical expertise, and analyzing them manually can be errorprone. The application of artificial intelligence techniques can contribute significantly to the automation of medical diagnosis, providing support to specialists, improving the efficiency of the process and facilitating access to assisted diagnosis in centers with limited resources. In this context, the combination of multimodal information through deep learning algorithms represents a promising line of research. This Bachelor’s Thesis proposes as baseline that the combination of fundus and OCT images, by means of feature fusion strategies, allows to improve the performance of the models versus the individual use of each modality. To this end, different fusion techniques (early, intermediate and late fusion) are explored using DINOv2 and CLIP models as feature extractors, trained on a dataset of fundus and OCT images. The methodology developed ranges from data preprocessing, model design, model training and validation, to evaluation using standard metrics in multiclass classification. Detailed error analysis, confusion matrix and visual examples are also included to better interpret the behavior of the models. The results show that the best performances are achieved in single configurations, such as single fundus with DINOv2 (F1-score = 0.79, AUC = 0.94) or fundus with CLIP (F1-score = 0.81, AUC = 0.95), evidencing the robustness of these modalities separately in medical classification tasks. However, some fusion models, such as early fusion and intermediate fusion with DINOv2, have offered competitive results, reaching AUC values close to 0.90. These findings allow us to assess the potential of multimodal integration as an avenue for improvement in certain clinical scenarios.
El uso de imágenes médicas como las tomografías de coherencia óptica (OCT) y las fotografías del fondo de ojo (fundus) resulta fundamental en el diagnóstico y seguimiento de enfermedades oculares. Estas modalidades ofrecen información complementaria: mientras las imágenes fundus permiten visualizar la superficie de la retina, las OCT proporcionan una vista transversal que revela detalles estructurales en profundidad. Sin embargo, interpretar estas imágenes de forma precisa requiere experiencia clínica, y su análisis de forma manual puede ser propenso a errores. La aplicación de técnicas de inteligencia artificial puede contribuir significativamente a la automatización del diagnóstico médico, ofreciendo apoyo a los especialistas, mejorando la eficiencia del proceso y facilitando el acceso a un diagnóstico asistido en centros con recursos limitados. En este contexto, la combinación de información multimodal a través de algoritmos de aprendizaje profundo representa una línea de investigación prometedora. Este Trabajo de Fin de Grado propone como baseline que la combinación de imágenes fundus y OCT, mediante estrategias de fusión de características, permite mejorar el rendimiento de los modelos frente al uso individual de cada modalidad. Para ello, se exploran diferentes técnicas de fusión (early, intermediate y late fusion) empleando como extractores de características los modelos DINOv2 y CLIP, entrenados sobre un conjunto de datos de imágenes fundus y OCT. La metodología desarrollada abarca desde el preprocesamiento de los datos, el diseño de los modelos, el entrenamiento y validación de los mismos, hasta la evaluación utilizando métricas estándar en clasificación multiclase. Asimismo, se incluyen análisis detallados de errores, matrices de confusión y ejemplos visuales que permiten interpretar mejor el comportamiento de los modelos. Los resultados muestran que los mejores rendimientos se alcanzan en configuraciones individuales, como fundus individual con DINOv2 (F1-score= 0.79, AUC= 0.94) o fundus con CLIP (F1-score= 0.81, AUC= 0.95), lo que evidencia la solidez de estas modalidades por separado en tareas de clasificación médica. No obstante, algunos modelos de fusión, como la early fusion e intermediate fusion con DINOv2, han ofrecido resultados competitivos, alcanzando valores de AUC cercanos a 0.90. Estos hallazgos permiten valorar el potencial de la integración multimodal como vía de mejora en determinados escenarios clínicos.
ABSTRACT
The use of medical imaging such as optical coherence tomography (OCT) and fundus photography is essential in the diagnosis and follow-up of ocular diseases. These modalities offer complementary information: while fundus images allow visualization of the retinal surface, OCT provides a cross-sectional view that reveals structural details in depth. However, interpreting these images accurately requires clinical expertise, and analyzing them manually can be errorprone. The application of artificial intelligence techniques can contribute significantly to the automation of medical diagnosis, providing support to specialists, improving the efficiency of the process and facilitating access to assisted diagnosis in centers with limited resources. In this context, the combination of multimodal information through deep learning algorithms represents a promising line of research. This Bachelor’s Thesis proposes as baseline that the combination of fundus and OCT images, by means of feature fusion strategies, allows to improve the performance of the models versus the individual use of each modality. To this end, different fusion techniques (early, intermediate and late fusion) are explored using DINOv2 and CLIP models as feature extractors, trained on a dataset of fundus and OCT images. The methodology developed ranges from data preprocessing, model design, model training and validation, to evaluation using standard metrics in multiclass classification. Detailed error analysis, confusion matrix and visual examples are also included to better interpret the behavior of the models. The results show that the best performances are achieved in single configurations, such as single fundus with DINOv2 (F1-score = 0.79, AUC = 0.94) or fundus with CLIP (F1-score = 0.81, AUC = 0.95), evidencing the robustness of these modalities separately in medical classification tasks. However, some fusion models, such as early fusion and intermediate fusion with DINOv2, have offered competitive results, reaching AUC values close to 0.90. These findings allow us to assess the potential of multimodal integration as an avenue for improvement in certain clinical scenarios. Read More


