Para cualquier ámbito de investigación, más frecuentemente en espacios científicos, se requiere la utilización de bases de datos con el fin de almacenar la información de una manera más ordenada en conjuntos que puedan ser útiles durante el seguimiento de un estudio que se esté realizando. En estos estudios, las bases de datos pueden ser analizadas y utilizadas para más tarde tomar decisiones diversas teniendo en cuenta los valores de los datos. El problema principal de estos casos es que en muchas ocasiones pueden contener errores lógicos o semánticos debido a factores humanos o errores en su generación ya que se hizo uso de modelos de Inteligencia Artificial (IA) que en el proceso cometieron errores; debido a esto, muchos datos deben pasar por un proceso de limpieza antes de ser utilizados. Para ello, se encuentran los lenguajes de validación que realizan el proceso de comprobar si los datos de entrada dados son correctos respecto a criterios especificados para el estudio del que se haga la investigación deseada.
Entre estos lenguajes de validación se encuentra el lenguaje de validación PALADIN. Éste se encarga específicamente de la verificación de que los valores de las bases de datos dadas como entrada cumplan unos criterios concretos formados en base a sucesivas consultas individuales que acaban dando lugar a un conjunto con los datos que cumplen las validaciones aplicadas en las consultas. Para este lenguaje se usó como caso de prueba información sobre los tratamientos de pacientes con cáncer de mama con un gen HER2 amplificado, para que se garantice una integridad segura en la futura utilización de estos datos para los estudios en los que se pueda necesitar el seguimiento de estos tratamientos.
Para la realización de este TFG se pensó en una posible ampliación del lenguaje de validación PALADIN para bases de datos de tipo no relacional, más concretamente, en lenguaje MongoDB. Así se podría aumentar el número de tipos de bases de datos aceptables a validar por este prototipo. Previamente al nuevo diseño del prototipo PALADIN, se tuvieron que adaptar los ficheros JSON que contienen las configuraciones correspondientes al árbol que contiene las diferentes validaciones y por ello las consultas necesarias para el proceso a consultas en búsqueda de documentos para bases en MongoDB.
A parte de PALADIN, se ha llevado a cabo la ampliación del Synthetic Data Generator o SDG, el cual se encarga de generación de bases de datos sintéticosen formatos MySQL, CSV y grafos de conocimiento en Resource Description Framework (RDF) del caso de prueba anteriormente nombrado. Para este TFG,también se aumentó el rango de estos formatos implementando la obtención de una base de datos, pero en MongoDB.
Tras esto, se decidió analizar los resultados respecto al rendimiento de PALADIN con esquemas de diferente número de nodos, es decir, dependiendo de la dificultad a la que se especifica con una consulta. Para esta ampliación, el tiempo de ejecución resultó ser más elevado comparado con otros formatos siendo la funcionalidad que más tarda seguida de la implementación para grafos de conocimiento RDF y, tras esta, la hecha para MySQL.
ABSTRACT
For any field of research, most often in scientific spaces ranging from medical to computer science, the use of databases is required to store information in a more organized and structured way in sets that can be useful during the follow�up of a study being conducted. In these studies, the databases can be analysed and used for later decision-making based on data values. The main problem of these cases is that in many cases they may contain logical or semantic errors due to human factors or simply errors in their generation since it was made use of models of Artificial Intelligence (AI) which in the process made mistakes; Because of this, many data must go through a verification process before being used. For this, we find validation languages which are a type of language that carry out the process of checking whether the given input data meet certain specified criteria for the study from which the desired research is made.
Among these validation languages is the PALADIN validation language [1]. This is specifically responsible for checking that the values of the databases given as input meet specific criteria formed based on successive individual queries which eventually result in a set with data meeting the validations applied in the consultations. This language was used as a test case for information on treatments of breast cancer patients with an amplified HER2 gene, to ensure safe integrity in the future use of these data for studies where follow up of such treatments may be required.
For the realization of this TFG it was thought of a possible extension of the validation language PALADIN for non-relational databases, more specifically in MongoDB language. This would amplify the number of types of available input databases with which such data validations could be carried out. Prior to the redesign of the PALADIN prototype, we had to adapt the JSON files containing the configurations corresponding to the tree that contains the different validations and therefore the queries necessary for the process to queries in search of documents for bases in MongoDB.
In addition to PALADIN, the Synthetic Data Generator [2] or SDG has been extended, which is responsible for generating synthetic databases in MySQL, CSV and knowledge graphs in Resource Description Framework (RDF) of the previously named test case with medical information from patients with the amplified HER2 gene. For this TFG, we also increased the range of these formats by implementing database retrieval, but in MongoDB.
After this, it was decided to implement a part to analyse the results regarding the execution time of PALADIN depending on the number of nodes that are used in the PALADIN scheme, that is, depending on the difficulty specified with a query. For this extension, the execution time turned out to be higher compared to its use with other formats being the functionality that is most late followed by the implementation for MySQL, and, after this, the one made for RDF knowledge graphs.
Para cualquier ámbito de investigación, más frecuentemente en espacios científicos, se requiere la utilización de bases de datos con el fin de almacenar la información de una manera más ordenada en conjuntos que puedan ser útiles durante el seguimiento de un estudio que se esté realizando. En estos estudios, las bases de datos pueden ser analizadas y utilizadas para más tarde tomar decisiones diversas teniendo en cuenta los valores de los datos. El problema principal de estos casos es que en muchas ocasiones pueden contener errores lógicos o semánticos debido a factores humanos o errores en su generación ya que se hizo uso de modelos de Inteligencia Artificial (IA) que en el proceso cometieron errores; debido a esto, muchos datos deben pasar por un proceso de limpieza antes de ser utilizados. Para ello, se encuentran los lenguajes de validación que realizan el proceso de comprobar si los datos de entrada dados son correctos respecto a criterios especificados para el estudio del que se haga la investigación deseada.
Entre estos lenguajes de validación se encuentra el lenguaje de validación PALADIN. Éste se encarga específicamente de la verificación de que los valores de las bases de datos dadas como entrada cumplan unos criterios concretos formados en base a sucesivas consultas individuales que acaban dando lugar a un conjunto con los datos que cumplen las validaciones aplicadas en las consultas. Para este lenguaje se usó como caso de prueba información sobre los tratamientos de pacientes con cáncer de mama con un gen HER2 amplificado, para que se garantice una integridad segura en la futura utilización de estos datos para los estudios en los que se pueda necesitar el seguimiento de estos tratamientos.
Para la realización de este TFG se pensó en una posible ampliación del lenguaje de validación PALADIN para bases de datos de tipo no relacional, más concretamente, en lenguaje MongoDB. Así se podría aumentar el número de tipos de bases de datos aceptables a validar por este prototipo. Previamente al nuevo diseño del prototipo PALADIN, se tuvieron que adaptar los ficheros JSON que contienen las configuraciones correspondientes al árbol que contiene las diferentes validaciones y por ello las consultas necesarias para el proceso a consultas en búsqueda de documentos para bases en MongoDB.
A parte de PALADIN, se ha llevado a cabo la ampliación del Synthetic Data Generator o SDG, el cual se encarga de generación de bases de datos sintéticosen formatos MySQL, CSV y grafos de conocimiento en Resource Description Framework (RDF) del caso de prueba anteriormente nombrado. Para este TFG,también se aumentó el rango de estos formatos implementando la obtención de una base de datos, pero en MongoDB.
Tras esto, se decidió analizar los resultados respecto al rendimiento de PALADIN con esquemas de diferente número de nodos, es decir, dependiendo de la dificultad a la que se especifica con una consulta. Para esta ampliación, el tiempo de ejecución resultó ser más elevado comparado con otros formatos siendo la funcionalidad que más tarda seguida de la implementación para grafos de conocimiento RDF y, tras esta, la hecha para MySQL.
ABSTRACT
For any field of research, most often in scientific spaces ranging from medical to computer science, the use of databases is required to store information in a more organized and structured way in sets that can be useful during the follow�up of a study being conducted. In these studies, the databases can be analysed and used for later decision-making based on data values. The main problem of these cases is that in many cases they may contain logical or semantic errors due to human factors or simply errors in their generation since it was made use of models of Artificial Intelligence (AI) which in the process made mistakes; Because of this, many data must go through a verification process before being used. For this, we find validation languages which are a type of language that carry out the process of checking whether the given input data meet certain specified criteria for the study from which the desired research is made.
Among these validation languages is the PALADIN validation language [1]. This is specifically responsible for checking that the values of the databases given as input meet specific criteria formed based on successive individual queries which eventually result in a set with data meeting the validations applied in the consultations. This language was used as a test case for information on treatments of breast cancer patients with an amplified HER2 gene, to ensure safe integrity in the future use of these data for studies where follow up of such treatments may be required.
For the realization of this TFG it was thought of a possible extension of the validation language PALADIN for non-relational databases, more specifically in MongoDB language. This would amplify the number of types of available input databases with which such data validations could be carried out. Prior to the redesign of the PALADIN prototype, we had to adapt the JSON files containing the configurations corresponding to the tree that contains the different validations and therefore the queries necessary for the process to queries in search of documents for bases in MongoDB.
In addition to PALADIN, the Synthetic Data Generator [2] or SDG has been extended, which is responsible for generating synthetic databases in MySQL, CSV and knowledge graphs in Resource Description Framework (RDF) of the previously named test case with medical information from patients with the amplified HER2 gene. For this TFG, we also increased the range of these formats by implementing database retrieval, but in MongoDB.
After this, it was decided to implement a part to analyse the results regarding the execution time of PALADIN depending on the number of nodes that are used in the PALADIN scheme, that is, depending on the difficulty specified with a query. For this extension, the execution time turned out to be higher compared to its use with other formats being the functionality that is most late followed by the implementation for MySQL, and, after this, the one made for RDF knowledge graphs. Read More


