Optimización del proceso ETL; Migración de SQL Database a Azure Synapse

Bookmark (0)
Please login to bookmark Close

El presente Trabajo Final de Grado tiene como objetivo principal analizar y proponer una solución para la migración de datos desde una base de datos Oracle hacia Microsoft Azure Synapse Analytics. Este proceso responde a la necesidad de optimizar el rendimiento, la escalabilidad y la eficiencia en el procesamiento y análisis de grandes volúmenes de datos, en pos de aprovechar las capacidades avanzadas de la nube. En este sentido, la propuesta busca replicar las funcionalidades existentes, mejorando la infraestructura tecnológica y los procesos de análisis a través del empleo de herramientas como pipelines, SQL Pools y notebooks en Azure.
Entre los objetivos específicos, se incluye el análisis, la estructuración y la planificación de una migración eficiente y exitosa -desde Oracle a Synapse- asegurando la integridad y calidad de los datos a lo largo del proceso. Ello implica la automatización de la ingesta y la transformación de los datos a través de pipelines y triggers en Synapse, la correcta estructuración del sistema de archivos en Synapse Analytics, y la preparación del Dedicated SQL Pool para garantizar la ingesta y refinamiento de datos adecuados.
La metodología empleada comprende varias etapas. En primer lugar, se automatiza el proceso de ingesta y transformación de datos mediante pipelines y triggers. Posteriormente, se planifica y estructura el sistema de archivos y los recursos de procesamiento en Azure Synapse. El procesamiento y transformación de los datos se realiza utilizando Notebooks de PySpark y de Scripts SQL, que permiten la generación de las tablas finales destinadas a generar los resultados del proyecto. Finalmente, con objeto de validar la consistencia y asegurar el correcto funcionamiento del sistema, se diseñan y ejecutan planes de depuración, empleando herramientas específicas como notebooks de PySpark para pruebas y ajustes.
En conclusión, este proyecto refleja el creciente interés del ámbito empresarial por migrar y optimizar el almacenamiento y tratamiento de datos en entornos de nube. En los procesos de planificación y ejecución de esta solución se subraya la importancia de garantizar la consistencia, trazabilidad y calidad de los datos, así como la necesidad de una planificación acertada para garantizar el éxito de iniciativas tecnológicas de esta naturaleza.
Abstract:
This Final Degree Project has the main objective of analyzing and proposing a solution for migrating data from an Oracle database to Microsoft Azure Synapse Analytics. This process addresses the need to optimize performance, scalability, and efficiency in the processing and analysis of large volumes of data, aiming to leverage the advanced capabilities of the cloud. In this sense, the proposal seeks to replicate existing functionalities while improving the technological infrastructure and analysis processes through the use of tools such as pipelines, SQL Pools, and notebooks in Azure.
Among the specific objectives, the analysis, structuring, and planning of an efficient and successful migration from Oracle to Synapse are included, ensuring data integrity and quality throughout the process. This involves automating data ingestion and transformation through pipelines and triggers in Synapse, properly structuring the file system in Synapse Analytics, and preparing the Dedicated SQL Pool to ensure proper data ingestion and refinement.
The methodology employed involves several stages. First, the data ingestion and transformation process is automated using pipelines and triggers. Then, the file system and processing resources in Azure Synapse are planned and structured. The data processing and transformation are carried out using PySpark Notebooks and SQL Scripts, which enable the generation of the final tables intended to produce the project results. Finally, to validate consistency and ensure the correct functioning of the system, debugging plans are designed and executed, using specific tools like PySpark notebooks for testing and adjustments.
In conclusion, this project reflects the growing interest in the business world to migrate and optimize data storage and processing in cloud environments. The planning and execution processes of this solution emphasize the importance of ensuring data consistency, traceability, and quality, as well as the need for proper planning to ensure the success of technological initiatives of this nature.

​El presente Trabajo Final de Grado tiene como objetivo principal analizar y proponer una solución para la migración de datos desde una base de datos Oracle hacia Microsoft Azure Synapse Analytics. Este proceso responde a la necesidad de optimizar el rendimiento, la escalabilidad y la eficiencia en el procesamiento y análisis de grandes volúmenes de datos, en pos de aprovechar las capacidades avanzadas de la nube. En este sentido, la propuesta busca replicar las funcionalidades existentes, mejorando la infraestructura tecnológica y los procesos de análisis a través del empleo de herramientas como pipelines, SQL Pools y notebooks en Azure.
Entre los objetivos específicos, se incluye el análisis, la estructuración y la planificación de una migración eficiente y exitosa -desde Oracle a Synapse- asegurando la integridad y calidad de los datos a lo largo del proceso. Ello implica la automatización de la ingesta y la transformación de los datos a través de pipelines y triggers en Synapse, la correcta estructuración del sistema de archivos en Synapse Analytics, y la preparación del Dedicated SQL Pool para garantizar la ingesta y refinamiento de datos adecuados.
La metodología empleada comprende varias etapas. En primer lugar, se automatiza el proceso de ingesta y transformación de datos mediante pipelines y triggers. Posteriormente, se planifica y estructura el sistema de archivos y los recursos de procesamiento en Azure Synapse. El procesamiento y transformación de los datos se realiza utilizando Notebooks de PySpark y de Scripts SQL, que permiten la generación de las tablas finales destinadas a generar los resultados del proyecto. Finalmente, con objeto de validar la consistencia y asegurar el correcto funcionamiento del sistema, se diseñan y ejecutan planes de depuración, empleando herramientas específicas como notebooks de PySpark para pruebas y ajustes.
En conclusión, este proyecto refleja el creciente interés del ámbito empresarial por migrar y optimizar el almacenamiento y tratamiento de datos en entornos de nube. En los procesos de planificación y ejecución de esta solución se subraya la importancia de garantizar la consistencia, trazabilidad y calidad de los datos, así como la necesidad de una planificación acertada para garantizar el éxito de iniciativas tecnológicas de esta naturaleza.
Abstract:
This Final Degree Project has the main objective of analyzing and proposing a solution for migrating data from an Oracle database to Microsoft Azure Synapse Analytics. This process addresses the need to optimize performance, scalability, and efficiency in the processing and analysis of large volumes of data, aiming to leverage the advanced capabilities of the cloud. In this sense, the proposal seeks to replicate existing functionalities while improving the technological infrastructure and analysis processes through the use of tools such as pipelines, SQL Pools, and notebooks in Azure.
Among the specific objectives, the analysis, structuring, and planning of an efficient and successful migration from Oracle to Synapse are included, ensuring data integrity and quality throughout the process. This involves automating data ingestion and transformation through pipelines and triggers in Synapse, properly structuring the file system in Synapse Analytics, and preparing the Dedicated SQL Pool to ensure proper data ingestion and refinement.
The methodology employed involves several stages. First, the data ingestion and transformation process is automated using pipelines and triggers. Then, the file system and processing resources in Azure Synapse are planned and structured. The data processing and transformation are carried out using PySpark Notebooks and SQL Scripts, which enable the generation of the final tables intended to produce the project results. Finally, to validate consistency and ensure the correct functioning of the system, debugging plans are designed and executed, using specific tools like PySpark notebooks for testing and adjustments.
In conclusion, this project reflects the growing interest in the business world to migrate and optimize data storage and processing in cloud environments. The planning and execution processes of this solution emphasize the importance of ensuring data consistency, traceability, and quality, as well as the need for proper planning to ensure the success of technological initiatives of this nature. Read More