Deep learning para la clasificación de sarcomas de tejidos blandos en imágenes histopatológicas

Bookmark (0)
Please login to bookmark Close

Los sarcomas de partes blandas son tumores malignos poco frecuentes que pueden originarse en tejidos como músculo, grasa o vasos sanguíneos, y se caracterizan por una elevada heterogeneidad histológica y un comportamiento agresivo. Debido a su baja prevalencia y complejidad histológica, su diagnóstico es especialmente complejo y requiere la colaboración de expertos en centros de referencia.
Este trabajo propone una implementación basada en aprendizaje profundo para la clasificación de los tres subtipos más frecuentes (leiomiosarcoma, liposarcoma indiferenciado y sarcoma pleomórfico indiferenciado) a partir de imágenes histológicas digitalizadas, con el objetivo de servir como herramienta de apoyo al diagnóstico o para la investigación en sarcomas.
La implementación parte de un proyecto previo obsoleto, realizando distintos experimentos hasta llegar a una solución final. Las mejoras más importantes incluyen la migración a las versiones actuales de FastAI y PyTorch y la adopción de validación cruzada estratificada por paciente, probando diversos ensambles de modelos hasta llegar al modelo final. Para el entrenamiento se generó un conjunto de datos propio a partir del conjunto TCGA-SARC, mediante un proceso de selección y preprocesamiento de imágenes en formato .svs para extraer imágenes (tiles) de 1024×1024 píxeles.
A lo largo de los distintos experimentos realizados, se identificó la importancia de contar con un conjunto de datos representativo, de emplear validación cruzada en contextos con pocos datos y de colaborar con un patólogo con experiencia en sarcomas para la selección de muestras y análisis de resultados. Las estrategias empleadas incluyen ajuste fino (fine-tuning), fijación de semilla (seed) para asegurar reproducibilidad, técnicas de aumento de datos como MixUp y escalado de temperaturas para mejorar la calibración. Finalmente, se desarrolló un sistema de inferencia que combina las predicciones de los modelos del ensamble mediante ponderación adaptativa por paciente, teniendo en cuenta la confianza, la incertidumbre y el desacuerdo entre modelos.
Por último, se implementó una aplicación en Google Colab utilizando Gradio, que permite cargar imágenes en formato .svs, generar los tiles, ejecutar el modelo y visualizar las predicciones de forma accesible y transparente. El sistema exporta también las predicciones por modelo y por tile, así como indicadores de desacuerdo, lo que facilita un análisis detallado del comportamiento del sistema.
ABSTRACT:
Soft tissue sarcomas are rare malignant tumors that can originate in tissues such as muscle, fat or blood vessels, and are characterized by high histologic heterogeneity and aggressive behavior. Due to their low prevalence and inherent heterogeneity, their diagnosis is especially complex and requires expert collaboration at referral centers.
This work proposes an implementation based on deep learning for the classification of the three most frequent subtypes (leiomyosarcoma, dedifferentiated liposarcoma and undifferentiated pleomorphic sarcoma) from digitized histological images, with the aim of serving as a diagnostic support tool or for sarcoma research.
The deployment begins from a previous obsolete project, performing different experiments until reaching a final solution. The most important improvements include the migration to the current versions of FastAI and PyTorch and the adoption of cross-validation stratified by patient, testing different model assemblies until reaching the final model. For training, a custom-made dataset was generated from the TCGA-SARC set, through a process of image selection and preprocessing to extract 1024×1024 pixel tiles.
Throughout the various experiments to final assembly, the importance of having a representative dataset, employing cross-validation in data-poor settings, and collaborating with an experienced sarcoma pathologist for sample selection and analysis of results was identified. Strategies employed included fine-tuning, seed fixation to ensure reproducibility, data augmentation techniques such as MixUp and temperature scaling to improve calibration. Finally, an inference system was developed that combines the predictions of the ensemble models by adaptive weighting per patient, taking into account confidence, uncertainty, and inter-model disagreement.
Finally, an application was implemented in Google Colab using Gradio, which allows images to be loaded in .svs format, tiles to be generated, the model to be run, and predictions to be visualized in an accessible and transparent manner. The system also exports predictions by model and by tile, as well as disagreement indicators, facilitating a detailed analysis of the system’s behavior.

​Los sarcomas de partes blandas son tumores malignos poco frecuentes que pueden originarse en tejidos como músculo, grasa o vasos sanguíneos, y se caracterizan por una elevada heterogeneidad histológica y un comportamiento agresivo. Debido a su baja prevalencia y complejidad histológica, su diagnóstico es especialmente complejo y requiere la colaboración de expertos en centros de referencia.
Este trabajo propone una implementación basada en aprendizaje profundo para la clasificación de los tres subtipos más frecuentes (leiomiosarcoma, liposarcoma indiferenciado y sarcoma pleomórfico indiferenciado) a partir de imágenes histológicas digitalizadas, con el objetivo de servir como herramienta de apoyo al diagnóstico o para la investigación en sarcomas.
La implementación parte de un proyecto previo obsoleto, realizando distintos experimentos hasta llegar a una solución final. Las mejoras más importantes incluyen la migración a las versiones actuales de FastAI y PyTorch y la adopción de validación cruzada estratificada por paciente, probando diversos ensambles de modelos hasta llegar al modelo final. Para el entrenamiento se generó un conjunto de datos propio a partir del conjunto TCGA-SARC, mediante un proceso de selección y preprocesamiento de imágenes en formato .svs para extraer imágenes (tiles) de 1024×1024 píxeles.
A lo largo de los distintos experimentos realizados, se identificó la importancia de contar con un conjunto de datos representativo, de emplear validación cruzada en contextos con pocos datos y de colaborar con un patólogo con experiencia en sarcomas para la selección de muestras y análisis de resultados. Las estrategias empleadas incluyen ajuste fino (fine-tuning), fijación de semilla (seed) para asegurar reproducibilidad, técnicas de aumento de datos como MixUp y escalado de temperaturas para mejorar la calibración. Finalmente, se desarrolló un sistema de inferencia que combina las predicciones de los modelos del ensamble mediante ponderación adaptativa por paciente, teniendo en cuenta la confianza, la incertidumbre y el desacuerdo entre modelos.
Por último, se implementó una aplicación en Google Colab utilizando Gradio, que permite cargar imágenes en formato .svs, generar los tiles, ejecutar el modelo y visualizar las predicciones de forma accesible y transparente. El sistema exporta también las predicciones por modelo y por tile, así como indicadores de desacuerdo, lo que facilita un análisis detallado del comportamiento del sistema.
ABSTRACT:
Soft tissue sarcomas are rare malignant tumors that can originate in tissues such as muscle, fat or blood vessels, and are characterized by high histologic heterogeneity and aggressive behavior. Due to their low prevalence and inherent heterogeneity, their diagnosis is especially complex and requires expert collaboration at referral centers.
This work proposes an implementation based on deep learning for the classification of the three most frequent subtypes (leiomyosarcoma, dedifferentiated liposarcoma and undifferentiated pleomorphic sarcoma) from digitized histological images, with the aim of serving as a diagnostic support tool or for sarcoma research.
The deployment begins from a previous obsolete project, performing different experiments until reaching a final solution. The most important improvements include the migration to the current versions of FastAI and PyTorch and the adoption of cross-validation stratified by patient, testing different model assemblies until reaching the final model. For training, a custom-made dataset was generated from the TCGA-SARC set, through a process of image selection and preprocessing to extract 1024×1024 pixel tiles.
Throughout the various experiments to final assembly, the importance of having a representative dataset, employing cross-validation in data-poor settings, and collaborating with an experienced sarcoma pathologist for sample selection and analysis of results was identified. Strategies employed included fine-tuning, seed fixation to ensure reproducibility, data augmentation techniques such as MixUp and temperature scaling to improve calibration. Finally, an inference system was developed that combines the predictions of the ensemble models by adaptive weighting per patient, taking into account confidence, uncertainty, and inter-model disagreement.
Finally, an application was implemented in Google Colab using Gradio, which allows images to be loaded in .svs format, tiles to be generated, the model to be run, and predictions to be visualized in an accessible and transparent manner. The system also exports predictions by model and by tile, as well as disagreement indicators, facilitating a detailed analysis of the system’s behavior. Read More