Ampliación del lenguaje de validación de datos PALADIN para su uso con datos en formato CSV

Bookmark (0)
Please login to bookmark Close

Este Trabajo de Fin de Grado tiene como principal objetivo la adaptación y extensión del sistema ya existente PALADIN para que este pueda trabajar con datos en formato CSV que forman parte de procesos (un ejemplo son los datos clínicos, sobre los que se centrará este trabajo), lo cual facilitaría su interoperabilidad con conjuntos de datos que estén en fuentes de otros tipos. Esta ampliación se aplica en un contexto en el que resultaría fundamental: la validación de esta información sobre pacientes con cáncer de mama, una enfermedad que sigue siendo una de las principales causas de mortalidad en mujeres a nivel mundial. En el ámbito sanitario, la calidad, veracidad y consistencia de los datos clínicos son determinantes para garantizar que la atención médica sea segura, eficiente y personalizada a cada paciente. La validación automática de estos datos, aparte de reducir posibles errores humanos, también permite detectar posibles incoherencias en la información que pueden llegar a condicionar los diagnósticos, los tratamientos o las investigaciones clínicas. La posibilidad de utilizar herramientas como ésta, adaptadas a diferentes formatos de entrada, abre la puerta a integrar sistemas de validación en flujos de trabajo reales dentro de hospitales o centros de investigación. Por tanto, este proyecto aspira a tener un impacto directo en la mejora de la seguridad del paciente y en la fiabilidad de la información sanitaria, algo que resulta esencial en estos días. El problema que se quiere resolver es, en esencia, una falta de flexibilidad del prototipo original de PALADIN, el cual, pese a funcionar ya de manera muy eficiente antes de esta ampliación, estaba limitado a un tipo de entrada concreta (datos en bases de datos relacionales MySQL y datos de grafos de conocimiento en RDF). Para poder llevar a cabo este desarrollo y aplicar los datos generados por el Synthetic Data Generator (SDG), primero ha sido necesario realizar un estudio detallado tanto del funcionamiento interno del SDG, como del propio PALADIN. Para mejorar el desarrollo y conocer mejor el ámbito en el que se empleará y de su importancia, se ha trabajado también sobre el contexto clínico del cáncer de mama, comprendiendo los criterios y relaciones clínicas que PALADIN evalúa en su sistema de validación, así como en tecnologías clave utilizadas en el desarrollo del proyecto, como Python, CSV, estructuras de grafos y GitHub, entre otras. Como parte y núcleo de este desarrollo, se ha diseñado una arquitectura que permite importar datos CSV directamente en PALADIN mediante el uso de SQLite, para lo que se han desarrollado varios conjuntos sintéticos con diferentes niveles de “suciedad” y se han analizado en múltiples escenarios para validar su comportamiento. Los resultados demuestran que el sistema funciona correctamente en todos los casos, siendo capaz de detectar incoherencias clínicas simuladas con precisión, incluso bajo condiciones de gran aleatoriedad. En conclusión, el trabajo realizado ha permitido extender las capacidades de PALADIN para trabajar con datos en formato CSV, convirtiéndolo así en una herramienta más versátil y accesible. Su potencial uso futuro en contextos reales refuerza la relevancia del proyecto como contribución al avance de la digitalización y seguridad del sector sanitario.
ABSTRACT
This Bachelor’s Thesis has as its main goal the adaptation and extension of the existing PALADIN system so that it can work with data in CSV format that are part of processes (an example being clinical data, which will be the focus of this work) which would ease its interoperability with datasets coming from other types of sources. This extension is applied in a context where it is of fundamental importance: the validation of clinical information about patients with breast cancer, a disease that remains one of the leading causes of mortality among women worldwide. In the healthcare field, the quality, accuracy, and consistency of clinical data are critical to ensuring that medical care is safe, effective, and personalized for each patient. The automatic validation of this data, in addition to reducing potential human errors, also allows the detection of possible inconsistencies in the information that may affect diagnoses, treatments, or clinical research. The ability to use tools like this, adapted to different input formats, opens the door to integrating validation systems into real-world workflows within hospitals or research centers. Therefore, this project intend to have a direct impact on improving patient safety and the reliability of healthcare information, which is essential nowadays. The problem to be solved is, essentially, a lack of flexibility in the original PALADIN prototype, which, although it already worked very efficiently before this extension, was limited to a specific type of input (data in MySQL relational databases and knowledge graph data in RDF). In order to carry out this development and apply the data generated by the Synthetic Data Generator (SDG), it was first necessary to conduct a detailed study of both the internal functioning of the SDG and of PALADIN itself. To support the development and gain a better understanding of the field in which it will be used and its importance, work was also done on the clinical context of breast cancer, including an analysis of the clinical criteria and relationships that PALADIN evaluates in its validation system, as well as of key technologies used in the development of the project, such as Python, CSV, graph structures, and GitHub, among others. As part and core of this development, an architecture has been designed that allows CSV data to be imported directly into PALADIN through the use of SQLite. For this, several synthetic datasets with different levels of “dirtiness” were created and analyzed in multiple scenarios to validate system behavior. The results show that the system works correctly in all cases, being able to detect simulated clinical inconsistencies with precision—even under conditions of high randomness. To summarize, the work carried out has made it possible to extend PALADIN’s capabilities to work with data in CSV format, thus turning it into a more versatile and accessible tool. Its potential future use in real-world contexts reinforces the relevance of the project as a contribution to the advancement of digitalization and safety in the healthcare sector.

​Este Trabajo de Fin de Grado tiene como principal objetivo la adaptación y extensión del sistema ya existente PALADIN para que este pueda trabajar con datos en formato CSV que forman parte de procesos (un ejemplo son los datos clínicos, sobre los que se centrará este trabajo), lo cual facilitaría su interoperabilidad con conjuntos de datos que estén en fuentes de otros tipos. Esta ampliación se aplica en un contexto en el que resultaría fundamental: la validación de esta información sobre pacientes con cáncer de mama, una enfermedad que sigue siendo una de las principales causas de mortalidad en mujeres a nivel mundial. En el ámbito sanitario, la calidad, veracidad y consistencia de los datos clínicos son determinantes para garantizar que la atención médica sea segura, eficiente y personalizada a cada paciente. La validación automática de estos datos, aparte de reducir posibles errores humanos, también permite detectar posibles incoherencias en la información que pueden llegar a condicionar los diagnósticos, los tratamientos o las investigaciones clínicas. La posibilidad de utilizar herramientas como ésta, adaptadas a diferentes formatos de entrada, abre la puerta a integrar sistemas de validación en flujos de trabajo reales dentro de hospitales o centros de investigación. Por tanto, este proyecto aspira a tener un impacto directo en la mejora de la seguridad del paciente y en la fiabilidad de la información sanitaria, algo que resulta esencial en estos días. El problema que se quiere resolver es, en esencia, una falta de flexibilidad del prototipo original de PALADIN, el cual, pese a funcionar ya de manera muy eficiente antes de esta ampliación, estaba limitado a un tipo de entrada concreta (datos en bases de datos relacionales MySQL y datos de grafos de conocimiento en RDF). Para poder llevar a cabo este desarrollo y aplicar los datos generados por el Synthetic Data Generator (SDG), primero ha sido necesario realizar un estudio detallado tanto del funcionamiento interno del SDG, como del propio PALADIN. Para mejorar el desarrollo y conocer mejor el ámbito en el que se empleará y de su importancia, se ha trabajado también sobre el contexto clínico del cáncer de mama, comprendiendo los criterios y relaciones clínicas que PALADIN evalúa en su sistema de validación, así como en tecnologías clave utilizadas en el desarrollo del proyecto, como Python, CSV, estructuras de grafos y GitHub, entre otras. Como parte y núcleo de este desarrollo, se ha diseñado una arquitectura que permite importar datos CSV directamente en PALADIN mediante el uso de SQLite, para lo que se han desarrollado varios conjuntos sintéticos con diferentes niveles de “suciedad” y se han analizado en múltiples escenarios para validar su comportamiento. Los resultados demuestran que el sistema funciona correctamente en todos los casos, siendo capaz de detectar incoherencias clínicas simuladas con precisión, incluso bajo condiciones de gran aleatoriedad. En conclusión, el trabajo realizado ha permitido extender las capacidades de PALADIN para trabajar con datos en formato CSV, convirtiéndolo así en una herramienta más versátil y accesible. Su potencial uso futuro en contextos reales refuerza la relevancia del proyecto como contribución al avance de la digitalización y seguridad del sector sanitario.
ABSTRACT
This Bachelor’s Thesis has as its main goal the adaptation and extension of the existing PALADIN system so that it can work with data in CSV format that are part of processes (an example being clinical data, which will be the focus of this work) which would ease its interoperability with datasets coming from other types of sources. This extension is applied in a context where it is of fundamental importance: the validation of clinical information about patients with breast cancer, a disease that remains one of the leading causes of mortality among women worldwide. In the healthcare field, the quality, accuracy, and consistency of clinical data are critical to ensuring that medical care is safe, effective, and personalized for each patient. The automatic validation of this data, in addition to reducing potential human errors, also allows the detection of possible inconsistencies in the information that may affect diagnoses, treatments, or clinical research. The ability to use tools like this, adapted to different input formats, opens the door to integrating validation systems into real-world workflows within hospitals or research centers. Therefore, this project intend to have a direct impact on improving patient safety and the reliability of healthcare information, which is essential nowadays. The problem to be solved is, essentially, a lack of flexibility in the original PALADIN prototype, which, although it already worked very efficiently before this extension, was limited to a specific type of input (data in MySQL relational databases and knowledge graph data in RDF). In order to carry out this development and apply the data generated by the Synthetic Data Generator (SDG), it was first necessary to conduct a detailed study of both the internal functioning of the SDG and of PALADIN itself. To support the development and gain a better understanding of the field in which it will be used and its importance, work was also done on the clinical context of breast cancer, including an analysis of the clinical criteria and relationships that PALADIN evaluates in its validation system, as well as of key technologies used in the development of the project, such as Python, CSV, graph structures, and GitHub, among others. As part and core of this development, an architecture has been designed that allows CSV data to be imported directly into PALADIN through the use of SQLite. For this, several synthetic datasets with different levels of “dirtiness” were created and analyzed in multiple scenarios to validate system behavior. The results show that the system works correctly in all cases, being able to detect simulated clinical inconsistencies with precision—even under conditions of high randomness. To summarize, the work carried out has made it possible to extend PALADIN’s capabilities to work with data in CSV format, thus turning it into a more versatile and accessible tool. Its potential future use in real-world contexts reinforces the relevance of the project as a contribution to the advancement of digitalization and safety in the healthcare sector. Read More