MLOps: managing the design and life circle of machine learning models = MLOps: administrando el diseño y ciclo de vida de los modelos de machine learning

Bookmark (0)
Please login to bookmark Close

El despliegue exitoso de soluciones de Machine Learning (ML) en entornos de producción sigue siendo un desafío significativo, ya que solo una pequeña fracción de los proyectos alcanza esta etapa. Esta tesis aborda dicha brecha proponiendo una arquitectura de MLOps (Machine Learning Operations) robusta y escalable, diseñada para optimizar todo el ciclo de vida del ML, desde el desarrollo y la experimentación hasta el despliegue, la monitorización y el reentrenamiento.
El trabajo comienza analizando las limitaciones de un sistema base previo desarrollado durante un proyecto de grado, el cual implementaba MLOps Nivel 0 utilizando herramientas de código abierto. A partir de ello, se propone e implementa una nueva arquitectura que integra MLflow, Docker, NGINX, PostgreSQL, MongoDB, Uptime Kuma y las APIs de Telegram para dar soporte a prácticas clave de MLOps como CI/CD, entrenamiento continuo, gestión de usuarios, monitorización y detección de degradación de modelos.
La plataforma permite el seguimiento centralizado de modelos, el despliegue automatizado, alertas en tiempo real sobre el rendimiento y copias de seguridad periódicas, mejorando de manera significativa la reproducibilidad, trazabilidad y mantenibilidad de los proyectos de ML. Un caso práctico demuestra todo el potencial de esta arquitectura en aplicaciones reales. Los resultados muestran una mejora medible en la f iabilidad operativa y la productividad, sentando las bases para futuras ampliaciones en áreas como escalabilidad, colaboración multiusuario y seguridad.
–ABSTRACT–
The successful deployment of Machine Learning (ML) solutions in production environments remains a significant challenge, with only a small fraction of projects reaching this stage. This thesis addresses the gap by proposing a robust and scalable MLOps (Machine Learning Operations) architecture designed to streamline the entire ML lifecycle, from development and experimentation to deployment, monitoring and retraining.
The project begins by analyzing the limitations of a previous baseline system developed during an undergraduate project, which implemented MLOps Level 0 using open-source tools. Building upon this, a new architecture is proposed and implemented, integrating MLflow, Docker, NGINX, PostgreSQL, MongoDB, Uptime Kuma, and Telegram APIs to support key MLOps practices such as CI/CD, continuous training, user management, monitoring, and model degradation detection.
The platform enables centralized model tracking, automated deployment, real-time performance alerts, and periodic backups, significantly improving the reproducibility, traceability, and maintainability of ML projects. A practical case study demonstrates the full potential of this architecture in real-world applications. The results show a measurable improvement in operational reliability and productivity, setting the stage for future enhancements in areas such as scalability, multiuser collaboration, and security.

​El despliegue exitoso de soluciones de Machine Learning (ML) en entornos de producción sigue siendo un desafío significativo, ya que solo una pequeña fracción de los proyectos alcanza esta etapa. Esta tesis aborda dicha brecha proponiendo una arquitectura de MLOps (Machine Learning Operations) robusta y escalable, diseñada para optimizar todo el ciclo de vida del ML, desde el desarrollo y la experimentación hasta el despliegue, la monitorización y el reentrenamiento.
El trabajo comienza analizando las limitaciones de un sistema base previo desarrollado durante un proyecto de grado, el cual implementaba MLOps Nivel 0 utilizando herramientas de código abierto. A partir de ello, se propone e implementa una nueva arquitectura que integra MLflow, Docker, NGINX, PostgreSQL, MongoDB, Uptime Kuma y las APIs de Telegram para dar soporte a prácticas clave de MLOps como CI/CD, entrenamiento continuo, gestión de usuarios, monitorización y detección de degradación de modelos.
La plataforma permite el seguimiento centralizado de modelos, el despliegue automatizado, alertas en tiempo real sobre el rendimiento y copias de seguridad periódicas, mejorando de manera significativa la reproducibilidad, trazabilidad y mantenibilidad de los proyectos de ML. Un caso práctico demuestra todo el potencial de esta arquitectura en aplicaciones reales. Los resultados muestran una mejora medible en la f iabilidad operativa y la productividad, sentando las bases para futuras ampliaciones en áreas como escalabilidad, colaboración multiusuario y seguridad.
–ABSTRACT–
The successful deployment of Machine Learning (ML) solutions in production environments remains a significant challenge, with only a small fraction of projects reaching this stage. This thesis addresses the gap by proposing a robust and scalable MLOps (Machine Learning Operations) architecture designed to streamline the entire ML lifecycle, from development and experimentation to deployment, monitoring and retraining.
The project begins by analyzing the limitations of a previous baseline system developed during an undergraduate project, which implemented MLOps Level 0 using open-source tools. Building upon this, a new architecture is proposed and implemented, integrating MLflow, Docker, NGINX, PostgreSQL, MongoDB, Uptime Kuma, and Telegram APIs to support key MLOps practices such as CI/CD, continuous training, user management, monitoring, and model degradation detection.
The platform enables centralized model tracking, automated deployment, real-time performance alerts, and periodic backups, significantly improving the reproducibility, traceability, and maintainability of ML projects. A practical case study demonstrates the full potential of this architecture in real-world applications. The results show a measurable improvement in operational reliability and productivity, setting the stage for future enhancements in areas such as scalability, multiuser collaboration, and security. Read More