Los Large Language Models (LLMs) han revolucionado la generación de lenguaje natural, permitiendo producir textos coherentes, contextuales y expresivos. Estos avances abren nuevas posibilidades en ámbitos como la modelización basada en agentes, la generación de datos sintéticos y la simulación social, campos que requieren no solo precisión estadística, sino también realismo conductual y matices psicológicos. En el contexto de la planificación urbana, simular poblaciones que reflejen la complejidad humana real se ha convertido en un paso fundamental para diseñar ciudades más adaptativas, inclusivas y centradas en el ser humano.
Este trabajo pretende explorar el potencial de los LLMs para generar agentes humanos sintéticos que sean demográficamente realistas y psicológicamente expresivos. El objetivo es desarrollar y evaluar un pipeline metodológico capaz de producir perfiles coherentes alineados conestadísticas poblacionales y rasgos de personalidad controlables, proporcionando unabase para su integración en el framework humanized Agent Based Models (h-ABMs).
Para ello, diseñamos un sistema en dos fases. La primera fase se centra en la generación de perfiles sintéticos basados en datos demográficos reales de Cambridge (Massachusetts), utilizando modelos como LLaMA, Qwen, Dolphin y Mistral. Estos perfiles se evaluaron en términos de riqueza narrativa, diversidad léxica, coherencia semántica y sesgo cultural. En la segunda fase, aplicamos técnicas de ajuste fino, concretamente Low-rank Decomposition (LoRA) combinada con Direct Policy Optimization (DPO) para condicionar las salidas del modelo a los vectores de personalidad de la teoría de Cinco Grandes Rasgos.
Nuestros resultados demuestran que los LLMs pueden generar poblaciones sintéticas con una notable diversidad, coherencia interna y realismo emocional. Sin embargo, también identif icamos sesgos, tanto culturales como emocionales, que limitan la representación de rasgos negativos y personalidades complejas. Los modelos afinados mostraron un control prometedor sobre rasgos como alta Apertura y Extroversión, mientras que otros como el Neuroticismo y la baja Amabilidad permanecieron más resistentes a la modulación. Esto pone de manifiesto la necesidad de contar con conjuntos de datos más precisos y consideraciones éticas a la hora de modelar la identidad humana. En general, este trabajo ofrece un marco reproducible y extensible para la generación controlada de agentes humanos sintéticos, con aplicaciones en simulación, investigación del comportamiento, educación y otros campos.
–ABSTRACT–
Large Language Models (LLMs) have revolutionized natural language generation, enabling machines to produce coherent, contextual, and expressive text. These advances open up new possibilities in domains such as agent-based modeling, synthetic data generation, and social simulation, fields that require not only statistical accuracy but also behavioral realism and psychological nuance. In the context of urban planning, simulating populations that reflect real human complexity has become a critical step toward designing more adaptive, inclusive, and human-centered cities.
This thesis aims to explore the potential of LLMs to generate synthetic human agents that are demographically realistic and psychologically expressive. The objective is to develop and evaluate a methodological pipeline capable of producing coherent profiles aligned with population statistics and controllable personality traits, providing a foundation for their integration into humanized Agent Based Models (h-ABMs).
To this end, we designed a two-phase system. The first phase focuses on generating synthetic profiles based on real demographic data from Cambridge (Massachusetts), using models such as LLaMA, Qwen, Dolphin, and Mistral. These profiles were evaluated in terms of narrative richness, lexical diversity, semantic coherence, and cultural bias. In the second phase, we applied fine-tuning techniques, specifically Low-rank Decomposition (LoRA) combined with Direct Policy Optimization (DPO) to condition model outputs on Big Five personality vectors.
Our results demonstrate that LLMs can generate synthetic populations with remarkable diversity, internal coherence, and emotional realism. However, we also identified persistent biases, both cultural and emotional, that limit the representation of negative traits and complex personalities. The fine-tuned models showed promising control over traits like high Openness and Extraversion, while others such as Neuroticism and low Agreeableness remained more resistant to modulation. This highlights the need for more nuanced datasets and ethical considerations when modeling human identity. Overall, this work offers a reproducible, extensible framework for the controlled generation of synthetic human agents, with applications in simulation, behavioral research, education, and beyond.
Los Large Language Models (LLMs) han revolucionado la generación de lenguaje natural, permitiendo producir textos coherentes, contextuales y expresivos. Estos avances abren nuevas posibilidades en ámbitos como la modelización basada en agentes, la generación de datos sintéticos y la simulación social, campos que requieren no solo precisión estadística, sino también realismo conductual y matices psicológicos. En el contexto de la planificación urbana, simular poblaciones que reflejen la complejidad humana real se ha convertido en un paso fundamental para diseñar ciudades más adaptativas, inclusivas y centradas en el ser humano.
Este trabajo pretende explorar el potencial de los LLMs para generar agentes humanos sintéticos que sean demográficamente realistas y psicológicamente expresivos. El objetivo es desarrollar y evaluar un pipeline metodológico capaz de producir perfiles coherentes alineados conestadísticas poblacionales y rasgos de personalidad controlables, proporcionando unabase para su integración en el framework humanized Agent Based Models (h-ABMs).
Para ello, diseñamos un sistema en dos fases. La primera fase se centra en la generación de perfiles sintéticos basados en datos demográficos reales de Cambridge (Massachusetts), utilizando modelos como LLaMA, Qwen, Dolphin y Mistral. Estos perfiles se evaluaron en términos de riqueza narrativa, diversidad léxica, coherencia semántica y sesgo cultural. En la segunda fase, aplicamos técnicas de ajuste fino, concretamente Low-rank Decomposition (LoRA) combinada con Direct Policy Optimization (DPO) para condicionar las salidas del modelo a los vectores de personalidad de la teoría de Cinco Grandes Rasgos.
Nuestros resultados demuestran que los LLMs pueden generar poblaciones sintéticas con una notable diversidad, coherencia interna y realismo emocional. Sin embargo, también identif icamos sesgos, tanto culturales como emocionales, que limitan la representación de rasgos negativos y personalidades complejas. Los modelos afinados mostraron un control prometedor sobre rasgos como alta Apertura y Extroversión, mientras que otros como el Neuroticismo y la baja Amabilidad permanecieron más resistentes a la modulación. Esto pone de manifiesto la necesidad de contar con conjuntos de datos más precisos y consideraciones éticas a la hora de modelar la identidad humana. En general, este trabajo ofrece un marco reproducible y extensible para la generación controlada de agentes humanos sintéticos, con aplicaciones en simulación, investigación del comportamiento, educación y otros campos.
–ABSTRACT–
Large Language Models (LLMs) have revolutionized natural language generation, enabling machines to produce coherent, contextual, and expressive text. These advances open up new possibilities in domains such as agent-based modeling, synthetic data generation, and social simulation, fields that require not only statistical accuracy but also behavioral realism and psychological nuance. In the context of urban planning, simulating populations that reflect real human complexity has become a critical step toward designing more adaptive, inclusive, and human-centered cities.
This thesis aims to explore the potential of LLMs to generate synthetic human agents that are demographically realistic and psychologically expressive. The objective is to develop and evaluate a methodological pipeline capable of producing coherent profiles aligned with population statistics and controllable personality traits, providing a foundation for their integration into humanized Agent Based Models (h-ABMs).
To this end, we designed a two-phase system. The first phase focuses on generating synthetic profiles based on real demographic data from Cambridge (Massachusetts), using models such as LLaMA, Qwen, Dolphin, and Mistral. These profiles were evaluated in terms of narrative richness, lexical diversity, semantic coherence, and cultural bias. In the second phase, we applied fine-tuning techniques, specifically Low-rank Decomposition (LoRA) combined with Direct Policy Optimization (DPO) to condition model outputs on Big Five personality vectors.
Our results demonstrate that LLMs can generate synthetic populations with remarkable diversity, internal coherence, and emotional realism. However, we also identified persistent biases, both cultural and emotional, that limit the representation of negative traits and complex personalities. The fine-tuned models showed promising control over traits like high Openness and Extraversion, while others such as Neuroticism and low Agreeableness remained more resistant to modulation. This highlights the need for more nuanced datasets and ethical considerations when modeling human identity. Overall, this work offers a reproducible, extensible framework for the controlled generation of synthetic human agents, with applications in simulation, behavioral research, education, and beyond. Read More


