Data Pipelines: integrating open source tools and microservices = Procesos de datos: integración de herramientas de código abierto y microservicios

Bookmark (0)
Please login to bookmark Close

Esta tesis explora el diseño e implementación de pipelines de datos modernos en la plataforma Google Cloud, con un enfoque en la identificación de componentes esenciales, metodologías y mejores prácticas para mejorar su eficiencia, confiabilidad y escalabilidad. Realizado en colaboración con Astrafy, este trabajo de investigación proporciona conocimientos críticos para la construcción de pipelines de datos automatizados. El estudio aborda específicamente las complejidades de integrar diversas herramientas de código abierto y microservicios, con el objetivo de simplificar el proceso de desarrollo mediante la propuesta de una metodología estructurada para la selección y combinación de estas tecnologías. Una contribución clave de este trabajo es la creación de un sistema de despliegue automatizado de un solo clic, que optimiza la configuración y gestión de pipelines de datos para el procesamiento de datos de facturación en Google Cloud. El sistema es evaluado a través de una serie de experimentos que comparan diversas tecnologías basadas en métricas de rendimiento como el costo, el tiempo de despliegue y la facilidad de uso. Los resultados ofrecen pautas valiosas y modelos replicables para organizaciones que buscan implementar pipelines de datos escalables y confiables en plataformas en la nube.
–ABSTRACT–
This thesis explores the design and implementation of modern data pipelines within the Google Cloud Platform, with a focus on identifying essential components, methodologies, and best practices to enhance their efficiency, reliability, and scalability. Conducted in collaboration with Astrafy, this research provides critical insights into the construction of automated data pipelines. The study specifically addresses the complexities of integrating various open source tools and microservices, aiming to simplify the development process by proposing a structured methodology for selecting and combining these technologies. A key contribution of this work is the creation of an automated one-click deployment system, which streamlines the setup and management of data pipelines for processing Google Cloud billing data. The system is evaluated through a series of experiments, comparing various technologies based on performance metrics such as cost, deployment time, and ease of use. The results offer valuable guidelines and replicable models for organizations seeking to implement scalable and reliable data pipelines on cloud platforms.

​Esta tesis explora el diseño e implementación de pipelines de datos modernos en la plataforma Google Cloud, con un enfoque en la identificación de componentes esenciales, metodologías y mejores prácticas para mejorar su eficiencia, confiabilidad y escalabilidad. Realizado en colaboración con Astrafy, este trabajo de investigación proporciona conocimientos críticos para la construcción de pipelines de datos automatizados. El estudio aborda específicamente las complejidades de integrar diversas herramientas de código abierto y microservicios, con el objetivo de simplificar el proceso de desarrollo mediante la propuesta de una metodología estructurada para la selección y combinación de estas tecnologías. Una contribución clave de este trabajo es la creación de un sistema de despliegue automatizado de un solo clic, que optimiza la configuración y gestión de pipelines de datos para el procesamiento de datos de facturación en Google Cloud. El sistema es evaluado a través de una serie de experimentos que comparan diversas tecnologías basadas en métricas de rendimiento como el costo, el tiempo de despliegue y la facilidad de uso. Los resultados ofrecen pautas valiosas y modelos replicables para organizaciones que buscan implementar pipelines de datos escalables y confiables en plataformas en la nube.
–ABSTRACT–
This thesis explores the design and implementation of modern data pipelines within the Google Cloud Platform, with a focus on identifying essential components, methodologies, and best practices to enhance their efficiency, reliability, and scalability. Conducted in collaboration with Astrafy, this research provides critical insights into the construction of automated data pipelines. The study specifically addresses the complexities of integrating various open source tools and microservices, aiming to simplify the development process by proposing a structured methodology for selecting and combining these technologies. A key contribution of this work is the creation of an automated one-click deployment system, which streamlines the setup and management of data pipelines for processing Google Cloud billing data. The system is evaluated through a series of experiments, comparing various technologies based on performance metrics such as cost, deployment time, and ease of use. The results offer valuable guidelines and replicable models for organizations seeking to implement scalable and reliable data pipelines on cloud platforms. Read More