La generación sintética de datos clínicos constituye una estrategia prometedora para mitigar la escasez de ejemplos anotados y salvaguardar la privacidad de los pacientes. En este Trabajo de Fin de Máster se presenta un sistema integral y parametrizable para la creación automática de diagnósticos médicos sintéticos etiquetados según la Clasificación Internacional de Enfermedades CIE-10, empleando modelos de lenguaje de gran tamaño (LLMs) tanto en la nube (OpenAI GPT-4o-mini) como locales (LLaMA-3.2-3B-Instruct). Para garantizar la trazabilidad, el pipeline registra todos los parámetros de generación —umbral mínimo por etiqueta, cantidad de diagnósticos generados por llamada, penalizaciones de frecuencia y presencia— y exporta de manera automatizada los resultados en formatos estructurados.
La validación del sistema se realiza a través de un marco de evaluación multifacético que abarca cuatro dimensiones: similitud semántica, mediante embeddings de alta dimensión y centroides por códigos CIE-10; diversidad léxica, a partir de métricas de n-gramas (bigramas y trigramas), Distinct-N y Self-BLEU; detectabilidad IA/humano, mediante clasificadores preentrenados para distinguir texto generado; y utilidad en tareas de clasificación, evaluada al incorporar los diagnósticos sintéticos en el entrenamiento de un modelo de clasificación clínica con arquitectura basada en embeddings congelados y capa lineal entrenable.
Los experimentos mostraron que los parámetros que aumentan la diversidad (umbrales elevados, penalizaciones fuertes) también incrementan la distancia semántica respecto al estilo humano y reducen ligeramente el rendimiento de clasificación , mientras que una configuración más conservadora logra equilibrar coherencia, autenticidad y valor predictivo. Además, se exploró el fine-tuning mediante LoRA en LLaMA-3.2-3B-Instruct, utilizando un corpus mixto de diagnósticos y bloques JSON, que sin embargo no logró mejorar los resultados obtenidos por el modelo original.
Como resultado práctico, se suministra un pipeline listo para su reutilización y varios datasets sintéticos, adecuados para entrenar y probar nuevos sistemas de NLP clínico. Finalmente, se discuten implicaciones éticas, riesgos de alucinaciones y líneas futuras, incluyendo la integración de validación médica y refinamiento del fine-tuning con textos clínicos más largos entre otros. Este trabajo sienta las bases de un ecosistema abierto y reproducible para la generación de texto clínico sintético, con potencial para impulsar tanto la investigación académica como el desarrollo de aplicaciones sanitarias basadas en Inteligencia Artificial.
Abstract:
Synthetic generation of clinical data represents a promising strategy to mitigate the scarcity of annotated examples and safeguard patient privacy. This Master’s Thesis presents a comprehensive and parameterizable system for the automatic creation of synthetic medical diagnoses labeled according to the International Classification of Diseases ICD-10, leveraging large language models (LLMs) both in the cloud (OpenAI GPT-4o-mini) and locally (LLaMA- 3.2-3B-Instruct). To ensure traceability, the pipeline logs all generation parameters — minimum threshold per label, amount of diagnoses generated per API call, frequency and presence penalties — and automatically exports the results in structured formats.
System validation is carried out through a multifaceted evaluation framework covering four dimensions: semantic similarity, using high-dimensional embeddings and centroids per ICD- 10 code; lexical diversity, based on n-gram metrics (bigrams and trigrams), Distinct-N, and Self-BLEU; AI/human detectability, using pretrained classifiers to distinguish generated text; and utility in classification tasks, assessed by incorporating synthetic diagnoses into the training of a clinical classification model with a frozen-embedding architecture and a trainable linear layer.
The experiments showed that parameters increasing diversity (higher thresholds, stronger penalties) also increase semantic distance from human-like style and slightly reduce classification performance, while a more conservative configuration achieves a balance between coherence, authenticity, and predictive value. In addition, fine-tuning with LoRA on LLaMA- 3.2-3B-Instruct was explored using a mixed corpus of diagnoses and JSON blocks, which however did not outperform the original model.
As a practical outcome, a ready-to-use pipeline and several synthetic datasets are provided, suitable for training and testing new clinical NLP systems. Finally, ethical implications, risks of hallucinations, and future directions are discussed, including the integration of medical validation and improved fine-tuning with longer clinical texts, among others. This work lays the foundation for an open and reproducible ecosystem for synthetic clinical text generation, with the potential to advance both academic research and healthcare applications based on Artificial Intelligence.
La generación sintética de datos clínicos constituye una estrategia prometedora para mitigar la escasez de ejemplos anotados y salvaguardar la privacidad de los pacientes. En este Trabajo de Fin de Máster se presenta un sistema integral y parametrizable para la creación automática de diagnósticos médicos sintéticos etiquetados según la Clasificación Internacional de Enfermedades CIE-10, empleando modelos de lenguaje de gran tamaño (LLMs) tanto en la nube (OpenAI GPT-4o-mini) como locales (LLaMA-3.2-3B-Instruct). Para garantizar la trazabilidad, el pipeline registra todos los parámetros de generación —umbral mínimo por etiqueta, cantidad de diagnósticos generados por llamada, penalizaciones de frecuencia y presencia— y exporta de manera automatizada los resultados en formatos estructurados.
La validación del sistema se realiza a través de un marco de evaluación multifacético que abarca cuatro dimensiones: similitud semántica, mediante embeddings de alta dimensión y centroides por códigos CIE-10; diversidad léxica, a partir de métricas de n-gramas (bigramas y trigramas), Distinct-N y Self-BLEU; detectabilidad IA/humano, mediante clasificadores preentrenados para distinguir texto generado; y utilidad en tareas de clasificación, evaluada al incorporar los diagnósticos sintéticos en el entrenamiento de un modelo de clasificación clínica con arquitectura basada en embeddings congelados y capa lineal entrenable.
Los experimentos mostraron que los parámetros que aumentan la diversidad (umbrales elevados, penalizaciones fuertes) también incrementan la distancia semántica respecto al estilo humano y reducen ligeramente el rendimiento de clasificación , mientras que una configuración más conservadora logra equilibrar coherencia, autenticidad y valor predictivo. Además, se exploró el fine-tuning mediante LoRA en LLaMA-3.2-3B-Instruct, utilizando un corpus mixto de diagnósticos y bloques JSON, que sin embargo no logró mejorar los resultados obtenidos por el modelo original.
Como resultado práctico, se suministra un pipeline listo para su reutilización y varios datasets sintéticos, adecuados para entrenar y probar nuevos sistemas de NLP clínico. Finalmente, se discuten implicaciones éticas, riesgos de alucinaciones y líneas futuras, incluyendo la integración de validación médica y refinamiento del fine-tuning con textos clínicos más largos entre otros. Este trabajo sienta las bases de un ecosistema abierto y reproducible para la generación de texto clínico sintético, con potencial para impulsar tanto la investigación académica como el desarrollo de aplicaciones sanitarias basadas en Inteligencia Artificial.
Abstract:
Synthetic generation of clinical data represents a promising strategy to mitigate the scarcity of annotated examples and safeguard patient privacy. This Master’s Thesis presents a comprehensive and parameterizable system for the automatic creation of synthetic medical diagnoses labeled according to the International Classification of Diseases ICD-10, leveraging large language models (LLMs) both in the cloud (OpenAI GPT-4o-mini) and locally (LLaMA- 3.2-3B-Instruct). To ensure traceability, the pipeline logs all generation parameters — minimum threshold per label, amount of diagnoses generated per API call, frequency and presence penalties — and automatically exports the results in structured formats.
System validation is carried out through a multifaceted evaluation framework covering four dimensions: semantic similarity, using high-dimensional embeddings and centroids per ICD- 10 code; lexical diversity, based on n-gram metrics (bigrams and trigrams), Distinct-N, and Self-BLEU; AI/human detectability, using pretrained classifiers to distinguish generated text; and utility in classification tasks, assessed by incorporating synthetic diagnoses into the training of a clinical classification model with a frozen-embedding architecture and a trainable linear layer.
The experiments showed that parameters increasing diversity (higher thresholds, stronger penalties) also increase semantic distance from human-like style and slightly reduce classification performance, while a more conservative configuration achieves a balance between coherence, authenticity, and predictive value. In addition, fine-tuning with LoRA on LLaMA- 3.2-3B-Instruct was explored using a mixed corpus of diagnoses and JSON blocks, which however did not outperform the original model.
As a practical outcome, a ready-to-use pipeline and several synthetic datasets are provided, suitable for training and testing new clinical NLP systems. Finally, ethical implications, risks of hallucinations, and future directions are discussed, including the integration of medical validation and improved fine-tuning with longer clinical texts, among others. This work lays the foundation for an open and reproducible ecosystem for synthetic clinical text generation, with the potential to advance both academic research and healthcare applications based on Artificial Intelligence. Read More



