Avances en modelos generativos: Técnicas de adaptación y personalización en la generación de imágenes

Bookmark (0)
Please login to bookmark Close

El presente proyecto de fin de grado aborda un análisis profundo del estado actual de los modelos generativos de imágenes sintéticas, centrándose especialmente en los modelos de difusión y su capacidad para superar enfoques clásicos como las Redes Generativas Antagónicas (GANs). El objetivo principal ha sido explorar y demostrar empíricamente la superioridad técnica y práctica de los modelos de difusión, particularmente cuando se combinan con técnicas adaptativas avanzadas, aportando así nuevas perspectivas y resultados relevantes al estado del arte.
La metodología empleada se estructuró en dos experimentos claramente diferenciados. El primer experimento se centró en comparar los modelos de difusión actuales frente a técnicas generativas tradicionales mediante métricas objetivas de calidad visual como FID, IS y KID, utilizando datasets reconocidos como CIFAR-10, CelebA y FFHQ. El segundo experimento profundizó en evaluar el impacto específico de técnicas adaptativas como ControlNet, LoRA e IP-Adapter, examinando cómo estas afectan no solo a la calidad visual general, sino también a aspectos más finos de composición, alineación texto-imagen y exactitud semántica.
Los resultados obtenidos revelan que los modelos de difusión adaptados y personalizados ofrecen mejoras sustanciales en calidad visual y fidelidad semántica respecto a métodos tradicionales, estableciendo así un nuevo estándar para la generación sintética de imágenes realistas. Adicionalmente, se identificaron importantes consideraciones éticas y medioambientales, subrayando la importancia de la eficiencia computacional y energética en este ámbito de investigación.
Finalmente, las conclusiones más destacadas incluyen la validación de los modelos de difusión como paradigma dominante en la generación de imágenes sintéticas, la efectividad demostrada de las técnicas adaptativas para la personalización precisa de los contenidos generados, y la necesidad crítica de continuar explorando mejoras técnicas y metodológicas que aseguren resultados aún más eficientes, éticos y sostenibles en futuros desarrollos.
Abstract:
This Bachelor’s Thesis deals with an in-depth analysis of the current state of the art of generative models of synthetic images, focusing especially on diffusion models and their ability to overcome classical approaches such as Generative Antagonistic Networks (GANs). The main objective has been to explore and empirically demonstrate the technical and practical superiority of diffusion models, particularly when combined with advanced adaptive techniques, thus bringing new perspectives and relevant results to the state of the art.
The methodology used was structured in two clearly differentiated experiments. The first experiment focused on comparing current diffusion models against traditional generative techniques by means of objective visual quality metrics such as FID, IS and KID, using recognised datasets such as CIFAR-10, CelebA and FFHQ. The second experiment delved into evaluating the specific impact of adaptive techniques such as ControlNet, LoRA and IP-Adapter, examining how they affect not only the overall visual quality, but also finer aspects of composition, text-image alignment and semantic accuracy.
The results obtained reveal that the adapted and customised diffusion models offer substantial improvements in visual quality and semantic fidelity over traditional methods, thus setting a new standard for the synthetic generation of realistic images. In addition, important ethical and environmental considerations were identified, highlighting the importance of computational and energy efficiency in this area of research.
Finally, the most salient conclusions include the validation of diffusion models as the dominant paradigm in the generation of synthetic images, the proven effectiveness of adaptive techniques for the precise personalisation of the generated content, and the critical need to continue exploring technical and methodological improvements that will ensure even more efficient, ethical and sustainable results in future developments.

​El presente proyecto de fin de grado aborda un análisis profundo del estado actual de los modelos generativos de imágenes sintéticas, centrándose especialmente en los modelos de difusión y su capacidad para superar enfoques clásicos como las Redes Generativas Antagónicas (GANs). El objetivo principal ha sido explorar y demostrar empíricamente la superioridad técnica y práctica de los modelos de difusión, particularmente cuando se combinan con técnicas adaptativas avanzadas, aportando así nuevas perspectivas y resultados relevantes al estado del arte.
La metodología empleada se estructuró en dos experimentos claramente diferenciados. El primer experimento se centró en comparar los modelos de difusión actuales frente a técnicas generativas tradicionales mediante métricas objetivas de calidad visual como FID, IS y KID, utilizando datasets reconocidos como CIFAR-10, CelebA y FFHQ. El segundo experimento profundizó en evaluar el impacto específico de técnicas adaptativas como ControlNet, LoRA e IP-Adapter, examinando cómo estas afectan no solo a la calidad visual general, sino también a aspectos más finos de composición, alineación texto-imagen y exactitud semántica.
Los resultados obtenidos revelan que los modelos de difusión adaptados y personalizados ofrecen mejoras sustanciales en calidad visual y fidelidad semántica respecto a métodos tradicionales, estableciendo así un nuevo estándar para la generación sintética de imágenes realistas. Adicionalmente, se identificaron importantes consideraciones éticas y medioambientales, subrayando la importancia de la eficiencia computacional y energética en este ámbito de investigación.
Finalmente, las conclusiones más destacadas incluyen la validación de los modelos de difusión como paradigma dominante en la generación de imágenes sintéticas, la efectividad demostrada de las técnicas adaptativas para la personalización precisa de los contenidos generados, y la necesidad crítica de continuar explorando mejoras técnicas y metodológicas que aseguren resultados aún más eficientes, éticos y sostenibles en futuros desarrollos.
Abstract:
This Bachelor’s Thesis deals with an in-depth analysis of the current state of the art of generative models of synthetic images, focusing especially on diffusion models and their ability to overcome classical approaches such as Generative Antagonistic Networks (GANs). The main objective has been to explore and empirically demonstrate the technical and practical superiority of diffusion models, particularly when combined with advanced adaptive techniques, thus bringing new perspectives and relevant results to the state of the art.
The methodology used was structured in two clearly differentiated experiments. The first experiment focused on comparing current diffusion models against traditional generative techniques by means of objective visual quality metrics such as FID, IS and KID, using recognised datasets such as CIFAR-10, CelebA and FFHQ. The second experiment delved into evaluating the specific impact of adaptive techniques such as ControlNet, LoRA and IP-Adapter, examining how they affect not only the overall visual quality, but also finer aspects of composition, text-image alignment and semantic accuracy.
The results obtained reveal that the adapted and customised diffusion models offer substantial improvements in visual quality and semantic fidelity over traditional methods, thus setting a new standard for the synthetic generation of realistic images. In addition, important ethical and environmental considerations were identified, highlighting the importance of computational and energy efficiency in this area of research.
Finally, the most salient conclusions include the validation of diffusion models as the dominant paradigm in the generation of synthetic images, the proven effectiveness of adaptive techniques for the precise personalisation of the generated content, and the critical need to continue exploring technical and methodological improvements that will ensure even more efficient, ethical and sustainable results in future developments. Read More