Benchmarking de modelos fundacionales para la anotación celular en datos scRNA-seq pan-cancer

Bookmark (0)
Please login to bookmark Close

El cáncer es una enfermedad caracterizada por una heterogeneidad compleja, donde las células tumorales pueden variar en su morfología, función y respuesta a tratamientos. Esta variabilidad inter e intratumoral hace que el análisis profundo de las células dentro de un tumor sea crucial para entender mejor la progresión de la enfermedad y las posibles terapias. El análisis single-cell, que permite estudiar células individuales en lugar de promediar la información de una población, se ha convertido en una herramienta fundamental para abordar esta heterogeneidad a nivel celular. La anotación celular es un paso crítico en el análisis single-cell, permitiendo a los investigadores identificar y caracterizar tipos de células individuales dentro de tejidos complejos. Este proceso es esencial para comprender la heterogeneidad celular, la biología del desarrollo y los mecanismos de la enfermedad a nivel granular. La anotación celular tradicional depende en gran medida del análisis manual y el conocimiento experto, involucrando la interpretación de patrones de expresión génica y el uso de conjuntos de datos de referencia. Este proceso manual es tanto lento como laborioso, a menudo requiriendo un esfuerzo humano considerable para anotar conjuntos de datos grandes. Modelos fundacionales como scBERT y scGPT ofrecen un enfoque distinto para la anotación celular. Estos modelos son modelos de aprendizaje automático a gran escala pre-entrenados en conjuntos de datos extensos y diseñados para ser adaptables a varias tareas posteriores mediante fine-tuning. En este estudio, se utilizan scBERT y scGPT como modelos fundacionales para la anotación celular en el análisis single-cell. Primero se hace fine-tuning en estos modelos usando el Atlas Terapéutico de Células de Cáncer (TCCA), un conjunto de datos pan-cáncer, para evaluar su capacidad de anotar con precisión diversos tipos de células. Subsecuentemente, se vuelve a realizar fine-tuning en exclusivamente células tumorales del TCCA para evaluar su capacidad en clasificar células según el tipo de tumor. Los resultados demuestran que scBERT y scGPT alcanzan alta precisión en ambas tareas de anotación de tipo celular y clasificación de tipo de tumor. Estos hallazgos indican que tales modelos fundacionales son capaces de generar incrustaciones celulares de alta calidad que representan las células, lo cual es beneficioso no solo para la anotación de tipo celular sino también para otras aplicaciones futuras. La capacidad de producir incrustaciones robustas abre posibilidades para análisis posteriores, tales como identificar nuevos estados celulares, comprender trayectorias celulares e integrar datos multi-ómicos. Esto subraya el potencial de scBERT y scGPT para avanzar en la investigación de single-cell proporcionando herramientas versátiles que mejoran nuestra capacidad de interpretar y utilizar datos biológicos complejos.
ABSTRACT
Cancer is a disease characterized by complex heterogeneity, where tumor cells can vary in morphology, function, and response to treatments. This inter and intratumoral variability makes the in-depth analysis of cells within a tumor crucial for better understanding disease progression and potential therapies. Single-cell analysis, which allows the study of individual cells rather than averaging information from a population, has become a fundamental tool to address this heterogeneity at the cellular level. Cell annotation is a critical step in single-cell genomics, enabling researchers to identify and characterize individual cell types within complex tissues. This process is essential for understanding cellular heterogeneity, developmental biology, and disease mechanisms at a granular level. Traditional cell annotation relies heavily on manual analysis and expert knowledge, involving the interpretation of gene expression patterns and the use of reference datasets. This manual process is both time-consuming and labor-intensive, often requiring a considerable human effort to annotate large datasets. Foundational models like scBERT and scGPT offers a transformative approach to cell annotation. These models are large-scale machine learning models pre-trained on extensive datasets and designed to be adaptable to various downstream tasks through fine-tuning. In this study, we leverage scBERT and scGPT as foundational models for cell annotation in single-cell genomics. We f irst fine-tuned these models using the Therapeutic Cancer Cell Atlas (TCCA), a pancancer dataset, to evaluate their ability to accurately annotate diverse cell types. Subsequently, we fine-tuned the models exclusively on tumor cells from the TCCA to assess their capability in classifying cells according to tumor type. Our results demonstrate that scBERT and scGPT achieve high accuracy in both cell type annotation and tumor type classification tasks. These findings indicate that such foundational models are capable of generating high-quality cellular embeddings that effectively represent cells, which is beneficial not only for cell type annotation but also for other future applications. The ability to produce robust embeddings opens up possibilities for downstream analyses, such as identifying novel cell states, understanding cellular trajectories, and integrating multi-omics data. This underscores the potential of scBERT and scGPT to advance single-cell research by providing versatile tools that enhance our capacity to interpret and utilize complex biological data.

​El cáncer es una enfermedad caracterizada por una heterogeneidad compleja, donde las células tumorales pueden variar en su morfología, función y respuesta a tratamientos. Esta variabilidad inter e intratumoral hace que el análisis profundo de las células dentro de un tumor sea crucial para entender mejor la progresión de la enfermedad y las posibles terapias. El análisis single-cell, que permite estudiar células individuales en lugar de promediar la información de una población, se ha convertido en una herramienta fundamental para abordar esta heterogeneidad a nivel celular. La anotación celular es un paso crítico en el análisis single-cell, permitiendo a los investigadores identificar y caracterizar tipos de células individuales dentro de tejidos complejos. Este proceso es esencial para comprender la heterogeneidad celular, la biología del desarrollo y los mecanismos de la enfermedad a nivel granular. La anotación celular tradicional depende en gran medida del análisis manual y el conocimiento experto, involucrando la interpretación de patrones de expresión génica y el uso de conjuntos de datos de referencia. Este proceso manual es tanto lento como laborioso, a menudo requiriendo un esfuerzo humano considerable para anotar conjuntos de datos grandes. Modelos fundacionales como scBERT y scGPT ofrecen un enfoque distinto para la anotación celular. Estos modelos son modelos de aprendizaje automático a gran escala pre-entrenados en conjuntos de datos extensos y diseñados para ser adaptables a varias tareas posteriores mediante fine-tuning. En este estudio, se utilizan scBERT y scGPT como modelos fundacionales para la anotación celular en el análisis single-cell. Primero se hace fine-tuning en estos modelos usando el Atlas Terapéutico de Células de Cáncer (TCCA), un conjunto de datos pan-cáncer, para evaluar su capacidad de anotar con precisión diversos tipos de células. Subsecuentemente, se vuelve a realizar fine-tuning en exclusivamente células tumorales del TCCA para evaluar su capacidad en clasificar células según el tipo de tumor. Los resultados demuestran que scBERT y scGPT alcanzan alta precisión en ambas tareas de anotación de tipo celular y clasificación de tipo de tumor. Estos hallazgos indican que tales modelos fundacionales son capaces de generar incrustaciones celulares de alta calidad que representan las células, lo cual es beneficioso no solo para la anotación de tipo celular sino también para otras aplicaciones futuras. La capacidad de producir incrustaciones robustas abre posibilidades para análisis posteriores, tales como identificar nuevos estados celulares, comprender trayectorias celulares e integrar datos multi-ómicos. Esto subraya el potencial de scBERT y scGPT para avanzar en la investigación de single-cell proporcionando herramientas versátiles que mejoran nuestra capacidad de interpretar y utilizar datos biológicos complejos.
ABSTRACT
Cancer is a disease characterized by complex heterogeneity, where tumor cells can vary in morphology, function, and response to treatments. This inter and intratumoral variability makes the in-depth analysis of cells within a tumor crucial for better understanding disease progression and potential therapies. Single-cell analysis, which allows the study of individual cells rather than averaging information from a population, has become a fundamental tool to address this heterogeneity at the cellular level. Cell annotation is a critical step in single-cell genomics, enabling researchers to identify and characterize individual cell types within complex tissues. This process is essential for understanding cellular heterogeneity, developmental biology, and disease mechanisms at a granular level. Traditional cell annotation relies heavily on manual analysis and expert knowledge, involving the interpretation of gene expression patterns and the use of reference datasets. This manual process is both time-consuming and labor-intensive, often requiring a considerable human effort to annotate large datasets. Foundational models like scBERT and scGPT offers a transformative approach to cell annotation. These models are large-scale machine learning models pre-trained on extensive datasets and designed to be adaptable to various downstream tasks through fine-tuning. In this study, we leverage scBERT and scGPT as foundational models for cell annotation in single-cell genomics. We f irst fine-tuned these models using the Therapeutic Cancer Cell Atlas (TCCA), a pancancer dataset, to evaluate their ability to accurately annotate diverse cell types. Subsequently, we fine-tuned the models exclusively on tumor cells from the TCCA to assess their capability in classifying cells according to tumor type. Our results demonstrate that scBERT and scGPT achieve high accuracy in both cell type annotation and tumor type classification tasks. These findings indicate that such foundational models are capable of generating high-quality cellular embeddings that effectively represent cells, which is beneficial not only for cell type annotation but also for other future applications. The ability to produce robust embeddings opens up possibilities for downstream analyses, such as identifying novel cell states, understanding cellular trajectories, and integrating multi-omics data. This underscores the potential of scBERT and scGPT to advance single-cell research by providing versatile tools that enhance our capacity to interpret and utilize complex biological data. Read More