Personal Assistant with Emotional and Multilingual Capabilities for Social Robots

Bookmark (0)
Please login to bookmark Close

This doctoral thesis addresses the challenge of building emotionally intelligent and multilingual conversational systems capable of operating in real-time and physically embodied scenarios. As social robots become more present in healthcare, education, and assistive contexts, there is a growing demand for conversational agents that can understand and respond to human emotions across different languages and cultural settings. Traditional dialogue systems often fall short in managing emotional complexity, maintaining engagement, and adapting to multilingual environments. This research proposes a unified framework that integrates Large Language Models, Reinforcement Learning, and Fuzzy Logic to support emotional, multilingual, and embodied Human-Robot Interaction.
The objectives of the thesis are threefold. First, to investigate the design and evaluation of multilingual dialogue resources with emotional annotation, ensuring diversity, realism, and consistency. Second, to explore and develop a dialogue management system for multilingual interaction, integrating contextual and emotional signals into modular response generation. This includes the research and development of an emotion-aware conversational agent to assess emotional alignment, generate empathetic engagement, and produce contextually appropriate responses. Third, to design, implement, and evaluate the full system in social robots, using interpretable emotional reasoning based on Fuzzy Logic and multimodal inputs such as speech, touch, light, and physiological data.
The findings are presented in three main contributions. First, a novel method for generating emotional dialogue datasets in English and Spanish is introduced, using Chain-of-Emotion prompting and AI-human preference alignment for training robust models. Second, an emotionally sensitive and multilingual dialogue architecture is implemented, combining Supervised Fine-Tuning, optimization-based Reinforcement Learning, and hierarchical topic and emotion tracking. Third, a Fuzzy Logic Systems based emotional model is extended and integrated into physical robots, supporting real-time emotional reasoning and expressive behavior through structured stimuli-state-expression mappings.
Results from the dialogue management system demonstrate that the hierarchical architecture effectively integrates emotional and contextual information to generate coherent and affectively aligned responses across languages. The system was deployed on two robotic platforms and evaluated through simulation and real-world interactions. Results show that the proposed models achieve emotionally aligned responses, support bilingual dialogue, and exhibit consistent internal emotional states that influence expressive output. User studies confirm improved engagement and affective perception.
This thesis contributes a modular and interpretable framework for emotionally intelligent and multilingual conversational agents. The proposed emotional model incorporates 43 fuzzy rule tables and 17 fuzzy variables across multiple emotional state dimensions. In addition, an emotionally aligned dialogue dataset with AI feedback was created, containing 128,125 winner-loser preference pairs, to train emotional models using Reinforcement Learning for generating emotionally engaging responses. The system was also evaluated through a user study involving 66 human participants. In particular, participants correctly recognized the robot’s emotional expression with accuracy rates of up to 72.7%, with consistent performance across neutral, positive, and negative conditions. By integrating synthetic emotional data generation, emotionally aware model training, and embodied emotional reasoning, the system advances the development of scalable and human-aligned social robots suitable for real-world deployment in sensitive domains.
RESUMEN
Esta tesis doctoral aborda el desafío de construir sistemas conversacionales emocionalmente inteligentes y multilingües, capaces de operar en tiempo real y en escenarios físicamente embebidos. A medida que los robots sociales se integran en contextos de atención sanitaria, educación y asistencia, crece la demanda de agentes conversacionales que comprendan y respondan a emociones humanas en distintos idiomas y culturas. Los sistemas de diálogo tradicionales suelen fallar al manejar la complejidad emocional, mantener la implicación del usuario y adaptarse a entornos multilingües. Esta investigación propone un marco unificado que combina Modelos Extensos de Lenguaje, Aprendizaje por Refuerzo y Lógica Difusa para fomentar una Interacción Humano-Robot emocional, multilingüe y contextualizada.
Los objetivos de la tesis son tres. Primero, investigar el diseño y evaluación de recursos de diálogo multilingües con anotaciones emocionales, garantizando diversidad, realismo y coherencia. Segundo, desarrollar un sistema de gestión del diálogo que integre señales contextuales y afectivas en una generación modular de respuestas. Esto incluye un agente conversacional consciente de las emociones, capaz de evaluar la alineación emocional, generar implicación empática y producir respuestas apropiadas al contexto. Tercero, implementar y evaluar el sistema completo en robots sociales, mediante razonamiento emocional interpretable basado en Lógica Difusa y entradas multimodales como voz, táctil, luz y señales fisiológicas.
Los resultados se organizan en tres contribuciones. Primero, se introduce un método para generar datos de diálogo emocional en inglés y español, utilizando el esquema Cadena-de-Emociones y un procedimiento de alineación de preferencias entre IA y humanos. Segundo, se implementa una arquitectura de diálogo multilingüe y emocionalmente sensible, que combina Ajuste Fino Supervisado, Aprendizaje por Refuerzo optimizado y clasificación jerárquica de temas y emociones. Tercero, se complementa un modelo emocional basado en Sistemas de Lógica Difusa, que permite razonamiento afectivo en tiempo real y expresión emocional mediante reglas estructuradas entre estímulo, estado y expresión.
Los resultados del sistema de gestión del diálogo demuestran que la arquitectura jerárquica integra eficazmente información emocional y contextual para generar respuestas coherentes y alineadas en varios idiomas. El sistema fue desplegado en dos robots y evaluado mediante simulaciones e interacciones reales. Los modelos generaron respuestas emocionalmente alineadas, permitieron diálogo multilingüe y mantuvieron estados emocionales internos consistentes. Estudios con usuarios confirmaron una mayor implicación y mejor percepción afectiva.
La tesis aporta un marco modular e interpretable para agentes conversacionales emocionalmente inteligentes y multilingües. El modelo emocional incluye 43 tablas de reglas difusas y 17 variables difusas en distintas dimensiones emocionales. Además, se creó un conjunto de datos alineado emocionalmente mediante retroalimentación de IA, con 128.125 pares de preferencia ganadorperdedor, empleado para entrenar modelos mediante Aprendizaje por Refuerzo que generan respuestas emocionales y atractivas. El sistema fue evaluado con 66 participantes humanos, quienes reconocieron correctamente la expresión emocional del robot con una precisión de hasta el 72,7%, con un rendimiento constante en las condiciones neutral, positiva y negativa. Mediante la integración de la generación sintética de datos emocionales, el entrenamiento de modelos conscientes de las emociones y el razonamiento emocional personificado, el sistema impulsa el desarrollo de robots sociales escalables y alineados con el ser humano, adecuados para su despliegue en entornos sensibles del mundo real.

​This doctoral thesis addresses the challenge of building emotionally intelligent and multilingual conversational systems capable of operating in real-time and physically embodied scenarios. As social robots become more present in healthcare, education, and assistive contexts, there is a growing demand for conversational agents that can understand and respond to human emotions across different languages and cultural settings. Traditional dialogue systems often fall short in managing emotional complexity, maintaining engagement, and adapting to multilingual environments. This research proposes a unified framework that integrates Large Language Models, Reinforcement Learning, and Fuzzy Logic to support emotional, multilingual, and embodied Human-Robot Interaction.
The objectives of the thesis are threefold. First, to investigate the design and evaluation of multilingual dialogue resources with emotional annotation, ensuring diversity, realism, and consistency. Second, to explore and develop a dialogue management system for multilingual interaction, integrating contextual and emotional signals into modular response generation. This includes the research and development of an emotion-aware conversational agent to assess emotional alignment, generate empathetic engagement, and produce contextually appropriate responses. Third, to design, implement, and evaluate the full system in social robots, using interpretable emotional reasoning based on Fuzzy Logic and multimodal inputs such as speech, touch, light, and physiological data.
The findings are presented in three main contributions. First, a novel method for generating emotional dialogue datasets in English and Spanish is introduced, using Chain-of-Emotion prompting and AI-human preference alignment for training robust models. Second, an emotionally sensitive and multilingual dialogue architecture is implemented, combining Supervised Fine-Tuning, optimization-based Reinforcement Learning, and hierarchical topic and emotion tracking. Third, a Fuzzy Logic Systems based emotional model is extended and integrated into physical robots, supporting real-time emotional reasoning and expressive behavior through structured stimuli-state-expression mappings.
Results from the dialogue management system demonstrate that the hierarchical architecture effectively integrates emotional and contextual information to generate coherent and affectively aligned responses across languages. The system was deployed on two robotic platforms and evaluated through simulation and real-world interactions. Results show that the proposed models achieve emotionally aligned responses, support bilingual dialogue, and exhibit consistent internal emotional states that influence expressive output. User studies confirm improved engagement and affective perception.
This thesis contributes a modular and interpretable framework for emotionally intelligent and multilingual conversational agents. The proposed emotional model incorporates 43 fuzzy rule tables and 17 fuzzy variables across multiple emotional state dimensions. In addition, an emotionally aligned dialogue dataset with AI feedback was created, containing 128,125 winner-loser preference pairs, to train emotional models using Reinforcement Learning for generating emotionally engaging responses. The system was also evaluated through a user study involving 66 human participants. In particular, participants correctly recognized the robot’s emotional expression with accuracy rates of up to 72.7%, with consistent performance across neutral, positive, and negative conditions. By integrating synthetic emotional data generation, emotionally aware model training, and embodied emotional reasoning, the system advances the development of scalable and human-aligned social robots suitable for real-world deployment in sensitive domains.
RESUMEN
Esta tesis doctoral aborda el desafío de construir sistemas conversacionales emocionalmente inteligentes y multilingües, capaces de operar en tiempo real y en escenarios físicamente embebidos. A medida que los robots sociales se integran en contextos de atención sanitaria, educación y asistencia, crece la demanda de agentes conversacionales que comprendan y respondan a emociones humanas en distintos idiomas y culturas. Los sistemas de diálogo tradicionales suelen fallar al manejar la complejidad emocional, mantener la implicación del usuario y adaptarse a entornos multilingües. Esta investigación propone un marco unificado que combina Modelos Extensos de Lenguaje, Aprendizaje por Refuerzo y Lógica Difusa para fomentar una Interacción Humano-Robot emocional, multilingüe y contextualizada.
Los objetivos de la tesis son tres. Primero, investigar el diseño y evaluación de recursos de diálogo multilingües con anotaciones emocionales, garantizando diversidad, realismo y coherencia. Segundo, desarrollar un sistema de gestión del diálogo que integre señales contextuales y afectivas en una generación modular de respuestas. Esto incluye un agente conversacional consciente de las emociones, capaz de evaluar la alineación emocional, generar implicación empática y producir respuestas apropiadas al contexto. Tercero, implementar y evaluar el sistema completo en robots sociales, mediante razonamiento emocional interpretable basado en Lógica Difusa y entradas multimodales como voz, táctil, luz y señales fisiológicas.
Los resultados se organizan en tres contribuciones. Primero, se introduce un método para generar datos de diálogo emocional en inglés y español, utilizando el esquema Cadena-de-Emociones y un procedimiento de alineación de preferencias entre IA y humanos. Segundo, se implementa una arquitectura de diálogo multilingüe y emocionalmente sensible, que combina Ajuste Fino Supervisado, Aprendizaje por Refuerzo optimizado y clasificación jerárquica de temas y emociones. Tercero, se complementa un modelo emocional basado en Sistemas de Lógica Difusa, que permite razonamiento afectivo en tiempo real y expresión emocional mediante reglas estructuradas entre estímulo, estado y expresión.
Los resultados del sistema de gestión del diálogo demuestran que la arquitectura jerárquica integra eficazmente información emocional y contextual para generar respuestas coherentes y alineadas en varios idiomas. El sistema fue desplegado en dos robots y evaluado mediante simulaciones e interacciones reales. Los modelos generaron respuestas emocionalmente alineadas, permitieron diálogo multilingüe y mantuvieron estados emocionales internos consistentes. Estudios con usuarios confirmaron una mayor implicación y mejor percepción afectiva.
La tesis aporta un marco modular e interpretable para agentes conversacionales emocionalmente inteligentes y multilingües. El modelo emocional incluye 43 tablas de reglas difusas y 17 variables difusas en distintas dimensiones emocionales. Además, se creó un conjunto de datos alineado emocionalmente mediante retroalimentación de IA, con 128.125 pares de preferencia ganadorperdedor, empleado para entrenar modelos mediante Aprendizaje por Refuerzo que generan respuestas emocionales y atractivas. El sistema fue evaluado con 66 participantes humanos, quienes reconocieron correctamente la expresión emocional del robot con una precisión de hasta el 72,7%, con un rendimiento constante en las condiciones neutral, positiva y negativa. Mediante la integración de la generación sintética de datos emocionales, el entrenamiento de modelos conscientes de las emociones y el razonamiento emocional personificado, el sistema impulsa el desarrollo de robots sociales escalables y alineados con el ser humano, adecuados para su despliegue en entornos sensibles del mundo real. Read More