Metodología de ingeniería de datos en Azure

Bookmark (0)
Please login to bookmark Close

En este proyecto de fin de grado, se ha desarrollado una guía práctica diseñada para un público no técnico, enfocada en la implementación de una solución de procesamiento en lotes (batch processing), uno de los casos más comunes en la ingeniería de datos. El documento detalla, paso a paso, cómo aprovechar las herramientas y servicios clave de la plataforma Azure (nube de Microsoft) para construir un flujo de datos end-toend eficiente. Los componentes principales de esta arquitectura son: Azure Synapse Analytics, Azure Data Lake Storage (ADLS) y Microsoft Power BI.
Con este manual, se orientará al usuario hacia una comprensión funcional del ciclo de vida de los datos en Azure, desde la ingesta periódica de la información, pasando por su correspondiente procesamiento, almacenamiento y orquestación, hasta la creación de un dashboard para visualizar los resultados. Además, este proceso ETL se realizará con la infraestructura automatizada mediante Terraform y la integración de prácticas modernas de CI/CD con Azure DevOps para garantizar un despliegue eficiente y confiable.
Para cumplir el objetivo principal del proyecto, se ha implementado una solución de ingeniería de datos en Azure para los datos de polen de la Comunidad de Madrid. Actualmente, existe una aplicación asociada a estos datos. Sin embargo, hemos querido desarrollar nuestro propio flujo de datos para crear un cuadro de mandos interactivo y, así, visualizar mejor la información.
El manual incluye ejemplos ilustrativos, distintos casos de uso y mejores prácticas para garantizar que incluso quienes no tienen un trasfondo técnico puedan entender y colaborar en proyectos de ingeniería de datos basados en Azure.
Abstract:
In this project, a practical guide designed for a non-technical audience has been developed, focusing on the implementation of a batch processing solution, which is one of the most common use cases in data engineering. The document details, step by step, how to leverage the key tools and services of Azure (Microsoft cloud) to build an efficient end-to-end data pipeline. The main components of this architecture are: Azure Synapse Analytics, Azure Data Lake Storage (ADLS), and Microsoft Power BI.
This manual will guide the user toward a functional understanding of the data lifecycle in Azure, from the periodic ingestion of information, through its corresponding processing, storage, and orchestration, to the creation of a dashboard to visualize the results. Furthermore, this ETL will be carried out with an automated infrastructure using Terraform and the integration of modern CI/CD practices with Azure DevOps to ensure an efficient and reliable deployment.
In order to achieve the project’s main objective, a data engineering solution has been implemented in Azure for pollen data from the Community of Madrid. Currently, there is an existing application associated with this data. However, we wanted to develop our own data pipeline to create an interactive dashboard and thus better visualize the information.
The manual includes illustrative examples, different use cases, and best practices to ensure that even those without a technical background can understand and collaborate on Azure-based data engineering projects.

​En este proyecto de fin de grado, se ha desarrollado una guía práctica diseñada para un público no técnico, enfocada en la implementación de una solución de procesamiento en lotes (batch processing), uno de los casos más comunes en la ingeniería de datos. El documento detalla, paso a paso, cómo aprovechar las herramientas y servicios clave de la plataforma Azure (nube de Microsoft) para construir un flujo de datos end-toend eficiente. Los componentes principales de esta arquitectura son: Azure Synapse Analytics, Azure Data Lake Storage (ADLS) y Microsoft Power BI.
Con este manual, se orientará al usuario hacia una comprensión funcional del ciclo de vida de los datos en Azure, desde la ingesta periódica de la información, pasando por su correspondiente procesamiento, almacenamiento y orquestación, hasta la creación de un dashboard para visualizar los resultados. Además, este proceso ETL se realizará con la infraestructura automatizada mediante Terraform y la integración de prácticas modernas de CI/CD con Azure DevOps para garantizar un despliegue eficiente y confiable.
Para cumplir el objetivo principal del proyecto, se ha implementado una solución de ingeniería de datos en Azure para los datos de polen de la Comunidad de Madrid. Actualmente, existe una aplicación asociada a estos datos. Sin embargo, hemos querido desarrollar nuestro propio flujo de datos para crear un cuadro de mandos interactivo y, así, visualizar mejor la información.
El manual incluye ejemplos ilustrativos, distintos casos de uso y mejores prácticas para garantizar que incluso quienes no tienen un trasfondo técnico puedan entender y colaborar en proyectos de ingeniería de datos basados en Azure.
Abstract:
In this project, a practical guide designed for a non-technical audience has been developed, focusing on the implementation of a batch processing solution, which is one of the most common use cases in data engineering. The document details, step by step, how to leverage the key tools and services of Azure (Microsoft cloud) to build an efficient end-to-end data pipeline. The main components of this architecture are: Azure Synapse Analytics, Azure Data Lake Storage (ADLS), and Microsoft Power BI.
This manual will guide the user toward a functional understanding of the data lifecycle in Azure, from the periodic ingestion of information, through its corresponding processing, storage, and orchestration, to the creation of a dashboard to visualize the results. Furthermore, this ETL will be carried out with an automated infrastructure using Terraform and the integration of modern CI/CD practices with Azure DevOps to ensure an efficient and reliable deployment.
In order to achieve the project’s main objective, a data engineering solution has been implemented in Azure for pollen data from the Community of Madrid. Currently, there is an existing application associated with this data. However, we wanted to develop our own data pipeline to create an interactive dashboard and thus better visualize the information.
The manual includes illustrative examples, different use cases, and best practices to ensure that even those without a technical background can understand and collaborate on Azure-based data engineering projects. Read More