Development and optimization of Big Data pipelines in Fintech:a comprehensive analysis of technology integration and workflow efficiency = Desarrollo y optimización de Big Data pipelines en Fintech: un análisis integral de la integración tecnológica y la eficiencia del flujo de trabajo

Bookmark (0)
Please login to bookmark Close

Esta tesis es el proyecto final del autor en el Programa de Máster en Ciencia de Datos de EIT. Fue desarrollado tras completar 3 semestres de cursos extensivos en ciencia de datos, bases de datos, infraestructuras de Big Data, computación distribuida, ingeniería de software y matemáticas.
También se basó en más de 2 años de experiencia del autor en un puesto de ingeniero de datos en el departamento de análisis avanzado de la banca mayorista ING y en la contribución activa del autor a la aplicación de software Domino, que requiere un uso intensivo de datos. La aplicación mencionada procesa grandes cantidades de datos financieros (en particular transaccionales y contables) para proporcionar a los empleados internos no técnicos una vista de 360 grados de los clientes de ING Wholesale Banking, incluidos, entre otros, paneles de control e informes financieros.
En el Capítulo 1 proporcionamos la introducción, el contexto y el por qué de este estudio.
En el Capítulo 2 se presenta y describe el estado actual del arte de las tecnologías y metodologías utilizadas en Big Data. Comenzando por el alto nivel, se presentan metodologías de trabajo ágiles en los equipos de software. Luego, se presenta el ecosistema de la nube a alto nivel, incluidas las herramientas reales que se utilizan diariamente y que constituyen la columna vertebral del proceso de trabajo de un desarrollador. Se introducen algunos conceptos teóricos de las infraestructuras de Big Data, los almacenes de datos y los lagos de datos. Luego, se enumeran a las herramientas y paquetes de software concretos utilizados en el panorama de Big Data, en particular Airflow Scheduler, que permite la ejecución automática y periódica de canales de datos y Apache Spark, un motor de análisis que permite el procesamiento de datos a gran escala en grupos de hardware de productos básicos distribuidos.
En el Capítulo 3, proporcionamos la descripción comercial de Domino: la aplicación comercial en el contexto en la que se realizó el estudio de esta tesis. También se proporciona la descripción general de los componentes principales para familiarizar al lector con los antecedentes del desarrollo de Big Data.
En el Capítulo 4 se realiza el estudio integral. Para ello, se proponen y aplican una serie de soluciones para mejorar la aplicación y mantenerla lo más robusta y segura posible. Las soluciones constan de: algoritmos de compresión de archivos, formatos de tablas de Big Data, técnicas de partición y capas de datos.
El Capítulo 5 describe los resultados finales, resumiendo las acciones realizadas, enumerando las ventajas introducidas y estimando los posibles beneficios de la implementación de las soluciones.
El capítulo 6 proporciona conclusiones. Resume toda la tesis y proporciona las reflexiones finales.
ABSTRACT
The following thesis is the author’s final project of the EIT Digital Master Programme in Data Science. It was developed after completing 3 semesters of extensive courses in data science, databases, Big Data infrastructures, distributed computing, software engineering and mathematics.
It was also based on more than 2 years of author’s experience on a Data Engineer position in ING Wholesale Banking Advanced Analytics department and active contribution of the author to the highly datas-intensive Domino software application. The mentioned application processes vast amounts of financial data (in particular transactional and accounting) to provide internal non-technical employees with 360 view on the ING Wholesale Banking customers, including but not limited to dashboards and financial reports.
In Chapter 1 we provide the introduction, context and the reason behind this study.
In Chapter 2 the current state of the art of the technologies and methodologies used in Big Data is presented and described. Starting with the high level, we present Agile working methodologies in the software teams. The high level Cloud ecosystem is presented, including the actual tools used daily, constituting the backbone of a developer’s working process. Some theoretical concepts of Big Data infrastructures are introduced. Then, we proceed to the concrete software tools and packages used in the Big Data landscape, in particular Airflow Scheduler, allowing for automatic and periodic execution of data pipelines and Apache Spark, an analytics engine allowing for the large-scale data processing on clusters of distributed commodity hardware.
In Chapter 3 we provide the business description of Domino- business application in context of which the study of this thesis was performed. The general description of the core components is provided, to familiarize the reader with the background for Big Data development.
In Chapter 4 the actual study is conducted. A handful of solutions are proposed and applied, in order to improve the application and keep it as robust and secure as possible. The solutions consist of: file compression algorithms, Big Data table formats, data layering and partitioning techniques.
Chapter 5 describes the final results, summarizing the conducted actions, listing the advantages introduced and estimating the possible gains from the implementation of the solutions.
Chapter 6 provides conclusions. It summarizes the whole thesis and provides the final thoughts.

​Esta tesis es el proyecto final del autor en el Programa de Máster en Ciencia de Datos de EIT. Fue desarrollado tras completar 3 semestres de cursos extensivos en ciencia de datos, bases de datos, infraestructuras de Big Data, computación distribuida, ingeniería de software y matemáticas.
También se basó en más de 2 años de experiencia del autor en un puesto de ingeniero de datos en el departamento de análisis avanzado de la banca mayorista ING y en la contribución activa del autor a la aplicación de software Domino, que requiere un uso intensivo de datos. La aplicación mencionada procesa grandes cantidades de datos financieros (en particular transaccionales y contables) para proporcionar a los empleados internos no técnicos una vista de 360 grados de los clientes de ING Wholesale Banking, incluidos, entre otros, paneles de control e informes financieros.
En el Capítulo 1 proporcionamos la introducción, el contexto y el por qué de este estudio.
En el Capítulo 2 se presenta y describe el estado actual del arte de las tecnologías y metodologías utilizadas en Big Data. Comenzando por el alto nivel, se presentan metodologías de trabajo ágiles en los equipos de software. Luego, se presenta el ecosistema de la nube a alto nivel, incluidas las herramientas reales que se utilizan diariamente y que constituyen la columna vertebral del proceso de trabajo de un desarrollador. Se introducen algunos conceptos teóricos de las infraestructuras de Big Data, los almacenes de datos y los lagos de datos. Luego, se enumeran a las herramientas y paquetes de software concretos utilizados en el panorama de Big Data, en particular Airflow Scheduler, que permite la ejecución automática y periódica de canales de datos y Apache Spark, un motor de análisis que permite el procesamiento de datos a gran escala en grupos de hardware de productos básicos distribuidos.
En el Capítulo 3, proporcionamos la descripción comercial de Domino: la aplicación comercial en el contexto en la que se realizó el estudio de esta tesis. También se proporciona la descripción general de los componentes principales para familiarizar al lector con los antecedentes del desarrollo de Big Data.
En el Capítulo 4 se realiza el estudio integral. Para ello, se proponen y aplican una serie de soluciones para mejorar la aplicación y mantenerla lo más robusta y segura posible. Las soluciones constan de: algoritmos de compresión de archivos, formatos de tablas de Big Data, técnicas de partición y capas de datos.
El Capítulo 5 describe los resultados finales, resumiendo las acciones realizadas, enumerando las ventajas introducidas y estimando los posibles beneficios de la implementación de las soluciones.
El capítulo 6 proporciona conclusiones. Resume toda la tesis y proporciona las reflexiones finales.
ABSTRACT
The following thesis is the author’s final project of the EIT Digital Master Programme in Data Science. It was developed after completing 3 semesters of extensive courses in data science, databases, Big Data infrastructures, distributed computing, software engineering and mathematics.
It was also based on more than 2 years of author’s experience on a Data Engineer position in ING Wholesale Banking Advanced Analytics department and active contribution of the author to the highly datas-intensive Domino software application. The mentioned application processes vast amounts of financial data (in particular transactional and accounting) to provide internal non-technical employees with 360 view on the ING Wholesale Banking customers, including but not limited to dashboards and financial reports.
In Chapter 1 we provide the introduction, context and the reason behind this study.
In Chapter 2 the current state of the art of the technologies and methodologies used in Big Data is presented and described. Starting with the high level, we present Agile working methodologies in the software teams. The high level Cloud ecosystem is presented, including the actual tools used daily, constituting the backbone of a developer’s working process. Some theoretical concepts of Big Data infrastructures are introduced. Then, we proceed to the concrete software tools and packages used in the Big Data landscape, in particular Airflow Scheduler, allowing for automatic and periodic execution of data pipelines and Apache Spark, an analytics engine allowing for the large-scale data processing on clusters of distributed commodity hardware.
In Chapter 3 we provide the business description of Domino- business application in context of which the study of this thesis was performed. The general description of the core components is provided, to familiarize the reader with the background for Big Data development.
In Chapter 4 the actual study is conducted. A handful of solutions are proposed and applied, in order to improve the application and keep it as robust and secure as possible. The solutions consist of: file compression algorithms, Big Data table formats, data layering and partitioning techniques.
Chapter 5 describes the final results, summarizing the conducted actions, listing the advantages introduced and estimating the possible gains from the implementation of the solutions.
Chapter 6 provides conclusions. It summarizes the whole thesis and provides the final thoughts. Read More