Explorando los límites de los modelos de difusión: generación de imagen y video con simulaciones de basura espacial

Bookmark (0)
Please login to bookmark Close

En este Trabajo Fin de Grado se exploran técnicas avanzadas de inteligencia artificial generativa, un campo emergente de la inteligencia artificial centrado en la creación automática de contenido (como texto, imágenes o vídeo) a partir de datos aprendidos durante el entrenamiento.
En concreto, se aborda la generación de imágenes y vídeo mediante modelos de difusión, una de las líneas más prometedoras y recientes en el campo de la Inteligencia Artificial (IA) que ha demostrado resultados sobresalientes frente a alternativas como las GANs (Generative Adversarial Networks) o los VAEs (Variational Autoencoders). Destacando por su estabilidad de entrenamiento, su capacidad de generar muestras con alto nivel de detalle y su flexibilidad para integrarse con mecanismos de atención y condicionamiento.
El objetivo principal de este trabajo es implementar modelos difusión que permita tres tareas: generación de imágenes no condicionadas, generación de imágenes condicionadas mediante técnicas de classifier-free guidance y generaciónde vídeo.
En el marco teórico se revisan las principales familias de modelos generativos actuales, contextualizando la elección de los Denoising Diffusion Probabilistic Models (DDPM) como base para el entrenamiento, así como su variante Denoising Diffusion Implicit Models (DDIM) para acelerar el proceso de inferencia sin comprometer la calidad de las muestras generadas. El modelo se implementa sobre una arquitectura U-Net, organizada como un autoencoder con múltiples escalas, donde cada etapa combina bloques ResNet con mecanismos de atención. En particular, se integran tanto bloques de multi-head attention, como atención lineal, lo que permite mejorar la eficiencia computacional en etapas con alta resolución espacial. Los modelos incorporan embeddings de tiempo y de condiciones externas que se aplican a lo largo de la arquitectura como parte del condicionamiento. Estos embeddings permiten aplicar técnicas de classifier-free guidance, que han demostrado mejorar la calidad generativa sin necesidad de añadir clasificadores adicionales al modelo. Para la generación de vídeo, se emplea una variante tridimensional de la arquitectura, conocida como U-Net 3D, esta versión extiende la atención hacia el dominio espacio-temporal e incorpora técnicas avanzadas.
Para la generación de imágenes y videos se han utilizado datos de dos fuentes principales. Por un lado, se emplean datos de la herramienta MOCAT-MC (MIT Orbital Capacity Assessment Tool – Montecarlo), desarrollada en el laboratorio ARCLab del MIT, orientada a modelar de forma probabilística la evolución de la órbita baja terrestre (LEO) de la Tierra ante escenarios de congestión creciente por satélites. Esta herramienta genera simulaciones estocásticas mediante métodos Montecarlo, permitiendo estudiar la dinámica de objetos. Por otro lado, se utilizan bases de datos meteorológicas y climáticas proporcionadas por el Centro Europeo de Predicción Meteorológica a Plazo Medio (ECMWF), que ofrecen tanto información climática como meteorológica.
Abstract:
This thesis explores advanced techniques in generative artificial intelligence (GAI), an emerging subfield focused on automatically creating content (such astext, images or video) from data learned during training.
More specifically, it addresses image and video generation using diffusion models, which are one of the most promising and recent lines of research in AI that have produced outstanding results compared to alternatives such as GANs (Generative Adversarial Networks) and VAEs (Variational Autoencoders). These models are notable for their training stability, their ability to generate highly detailed samples, and their flexibility in integrating with attention and conditioning mechanisms.
The main objective of this work is to implement diffusion models that can perform three tasks: the generation of unconditioned images; the generation of conditioned images using classifier-free guidance techniques; and video generation.
The theoretical framework reviews the main families of current generative models and contextualises the choice of Denoising Diffusion Probabilistic Models (DDPM) as the basis for training, as well as its variant Denoising Diffusion Implicit Models (DDIM) to accelerate the inference process without compromising the quality of the generated samples. The model is implemented on a U-Net architecture, organised as a multi-scale autoencoder, where each stage combines ResNet blocks with attention mechanisms. In particular, both multi-head attention and linear attention blocks are integrated, which improves computational efficiency in stages with high spatial resolution. The models incorporate time and external condition embeddings that are applied throughout the architecture as part of conditioning. These embeddings allow the application of classifier-free guidance techniques, which have been shown to improve generative quality without the need to add additional classifiers to the model. For video generation, a three dimensional variant of the architecture, known as U-Net 3D, is used. This version extends attention to the spatiotemporal domain and incorporates advanced techniques.
Data from two main sources has been used for image and video generation. On the one hand, data from the MOCAT-MC (MIT Orbital Capacity Assessment Tool – Montecarlo) tool, developed at MIT’s ARCLab, is used to probabilistically model the evolution of the Earth’s low Earth orbit (LEO) in scenarios of increasing satellite congestion. This tool generates stochastic simulations using Montecarlo methods, allowing the dynamics of objects to be studied. On the other hand, meteorological and climate databases provided by the European Centre for Medium-RangeWeather Forecasts (ECMWF) are used, which offer both climate and meteorological information.

​En este Trabajo Fin de Grado se exploran técnicas avanzadas de inteligencia artificial generativa, un campo emergente de la inteligencia artificial centrado en la creación automática de contenido (como texto, imágenes o vídeo) a partir de datos aprendidos durante el entrenamiento.
En concreto, se aborda la generación de imágenes y vídeo mediante modelos de difusión, una de las líneas más prometedoras y recientes en el campo de la Inteligencia Artificial (IA) que ha demostrado resultados sobresalientes frente a alternativas como las GANs (Generative Adversarial Networks) o los VAEs (Variational Autoencoders). Destacando por su estabilidad de entrenamiento, su capacidad de generar muestras con alto nivel de detalle y su flexibilidad para integrarse con mecanismos de atención y condicionamiento.
El objetivo principal de este trabajo es implementar modelos difusión que permita tres tareas: generación de imágenes no condicionadas, generación de imágenes condicionadas mediante técnicas de classifier-free guidance y generaciónde vídeo.
En el marco teórico se revisan las principales familias de modelos generativos actuales, contextualizando la elección de los Denoising Diffusion Probabilistic Models (DDPM) como base para el entrenamiento, así como su variante Denoising Diffusion Implicit Models (DDIM) para acelerar el proceso de inferencia sin comprometer la calidad de las muestras generadas. El modelo se implementa sobre una arquitectura U-Net, organizada como un autoencoder con múltiples escalas, donde cada etapa combina bloques ResNet con mecanismos de atención. En particular, se integran tanto bloques de multi-head attention, como atención lineal, lo que permite mejorar la eficiencia computacional en etapas con alta resolución espacial. Los modelos incorporan embeddings de tiempo y de condiciones externas que se aplican a lo largo de la arquitectura como parte del condicionamiento. Estos embeddings permiten aplicar técnicas de classifier-free guidance, que han demostrado mejorar la calidad generativa sin necesidad de añadir clasificadores adicionales al modelo. Para la generación de vídeo, se emplea una variante tridimensional de la arquitectura, conocida como U-Net 3D, esta versión extiende la atención hacia el dominio espacio-temporal e incorpora técnicas avanzadas.
Para la generación de imágenes y videos se han utilizado datos de dos fuentes principales. Por un lado, se emplean datos de la herramienta MOCAT-MC (MIT Orbital Capacity Assessment Tool – Montecarlo), desarrollada en el laboratorio ARCLab del MIT, orientada a modelar de forma probabilística la evolución de la órbita baja terrestre (LEO) de la Tierra ante escenarios de congestión creciente por satélites. Esta herramienta genera simulaciones estocásticas mediante métodos Montecarlo, permitiendo estudiar la dinámica de objetos. Por otro lado, se utilizan bases de datos meteorológicas y climáticas proporcionadas por el Centro Europeo de Predicción Meteorológica a Plazo Medio (ECMWF), que ofrecen tanto información climática como meteorológica.
Abstract:
This thesis explores advanced techniques in generative artificial intelligence (GAI), an emerging subfield focused on automatically creating content (such astext, images or video) from data learned during training.
More specifically, it addresses image and video generation using diffusion models, which are one of the most promising and recent lines of research in AI that have produced outstanding results compared to alternatives such as GANs (Generative Adversarial Networks) and VAEs (Variational Autoencoders). These models are notable for their training stability, their ability to generate highly detailed samples, and their flexibility in integrating with attention and conditioning mechanisms.
The main objective of this work is to implement diffusion models that can perform three tasks: the generation of unconditioned images; the generation of conditioned images using classifier-free guidance techniques; and video generation.
The theoretical framework reviews the main families of current generative models and contextualises the choice of Denoising Diffusion Probabilistic Models (DDPM) as the basis for training, as well as its variant Denoising Diffusion Implicit Models (DDIM) to accelerate the inference process without compromising the quality of the generated samples. The model is implemented on a U-Net architecture, organised as a multi-scale autoencoder, where each stage combines ResNet blocks with attention mechanisms. In particular, both multi-head attention and linear attention blocks are integrated, which improves computational efficiency in stages with high spatial resolution. The models incorporate time and external condition embeddings that are applied throughout the architecture as part of conditioning. These embeddings allow the application of classifier-free guidance techniques, which have been shown to improve generative quality without the need to add additional classifiers to the model. For video generation, a three dimensional variant of the architecture, known as U-Net 3D, is used. This version extends attention to the spatiotemporal domain and incorporates advanced techniques.
Data from two main sources has been used for image and video generation. On the one hand, data from the MOCAT-MC (MIT Orbital Capacity Assessment Tool – Montecarlo) tool, developed at MIT’s ARCLab, is used to probabilistically model the evolution of the Earth’s low Earth orbit (LEO) in scenarios of increasing satellite congestion. This tool generates stochastic simulations using Montecarlo methods, allowing the dynamics of objects to be studied. On the other hand, meteorological and climate databases provided by the European Centre for Medium-RangeWeather Forecasts (ECMWF) are used, which offer both climate and meteorological information. Read More