Desarrollo de un modelo de aprendizaje por refuerzo para el control de movimiento de un robot

Bookmark (0)
Please login to bookmark Close

El aprendizaje por refuerzo (RL) ha impulsado la robótica móvil, donde los robots aprenden a navegar por terrenos complejos sin reglas predeterminadas o mapas previos altamente detallados. Este trabajo de fin de Master sigue esta tendencia al enfocarse en el diseño, entrenamiento y validación de un modelo utilizando el algoritmo Proximal Policy Optimization (PPO) para el control autónomo de un ROSbot XL simulado en Gazebo Ignition y ROS 2 Humble. El objetivo es entrenar a un agente para lograr metas establecidas y evitar choques mientras se ajustan a las condiciones cambiantes de manera segura y efectiva; todo ello basado únicamente en los datos sensoriales del LIDAR y la odometría del robot.
El enfoque del proyecto radica en crear un entorno de observación que equilibre la riqueza sensorial y la eficiencia computacional al reducir las medidas LIDAR de 282 dimensiones a solo 37. Esto garantiza conservar información crucial para la navegación sin afectar la rapidez del proceso de entrenamiento. Esta estrategia de reducción junto con la definición de la función de recompensa, permitirá que el agente priorice la alineación al objetivo y evitar los obstáculos de manera proactiva, premiando los comportamientos positivos y penalizando aquellas acciones que pongan en riesgo la integridad del robot o su capacidad para completar la tarea asignada.
Para el entrenamiento, se realizó la integración con ROS 2, Gazebo Ignition y Gymnasium, estableciendo un entorno modular que permitió al ROSbot aprender en 200,000 pasos de entrenamiento en la simulación, con supervisión constante de métricas mediante TensorBoard. Se empleó una arquitectura MLP para procesar observaciones vectoriales de forma eficiente, logrando un aprendizaje progresivo en el que el agente desarrolló maniobras de avance alineado, evasión de colisiones y desbloqueo ante estancamientos, consolidando una política robusta y segura.
En la etapa de validación del modelo, los resultados demostraron que el agente logró alcanzar exitosamente diversos objetivos tanto en escenarios familiares (ya vistos durante el entrenamiento) como en ambientes nuevos con obstáculos. El robot no dependió en ningún momento de la memorización de rutas concretas, sino que tomó decisiones en tiempo real basadas únicamente en sus percepciones sensoriales. Estos resultados también apoyan la usabilidad y aplicabilidad del aprendizaje por refuerzo en escenarios de robótica en simulación, para la posterior transferencia de políticas aprendidas a entornos real.
Finalmente, este Trabajo de Fin de Master presenta una contribución práctica y académica en el área de la robótica móvil, mostrando cómo el aprendizaje por refuerzo puede ser aplicado para crear agentes que pueden navegar por espacios complejos de manera progresiva, segura y autónoma, presentando un proceso de aprendizaje modular y reproducible utilizando herramientas de código abierto como ROS 2, Gazebo y Stable-Baselines 3, y estableciendo bases sólidas para futuras investigaciones y aplicaciones en exploración, logística, soporte autónomo, entre otros.
–ABSTRACT–
Reinforcement learning (RL) has driven mobile robotics, where robots learn to navigate complex terrains without predetermined rules or highly detailed prior maps. This master’s thesis follows this trend by focusing on the design, training, and validation of a model using the Proximal Policy Optimization (PPO) algorithm for the autonomous control of a ROSbot XL simulated in Gazebo Ignition and ROS 2 Humble. The objective is to train an agent to achieve established goals and avoid collisions while adapting safely and effectively to changing conditions; all of this based solely on the robot’s LIDAR and odometry sensor data.
The project’s approach lies in creating an observation environment that balances sensory richness and computational efficiency by reducing the LIDAR measurements from 282 dimensions to only 37. This ensures that crucial navigation information is preserved without affecting the speed of the training process. This reduction strategy, along with the definition of the reward function, will allow the agent to prioritize goal alignment and proactively avoid obstacles, rewarding positive behaviors and penalizing actions that put the robot’s integrity or its ability to complete the assigned task at risk.
For the training, integration with ROS 2, Gazebo Ignition, and Gymnasium was carried out, establishing a modular environment that allowed the ROSbot to learn in 200,000 training steps in the simulation, with constant metric monitoring through TensorBoard. An MLP architecture was used to efficiently process vector observations, achieving progressive learning in which the agent developed aligned forward maneuvers, collision avoidance, and recovery from getting stuck, consolidating a robust and safe policy.
In the model validation stage, the results showed that the agent successfully achieved various objectives both in familiar scenarios (already seen during training) and in new environments with obstacles. The robot did not rely at any time on memorizing specific routes but instead made real-time decisions based solely on its sensory perceptions. These results also support the usability and applicability of reinforcement learning in robotics scenarios in simulation for the subsequent transfer of learned policies to real environments.
Finally, this master’s thesis presents a practical and academic contribution in the field of mobile robotics, showing how reinforcement learning can be applied to create agents capable of progressively, safely, and autonomously navigating complex spaces, presenting a modular and reproducible learning process using open-source tools such as ROS 2, Gazebo, and Stable-Baselines 3, and establishing solid foundations for future research and applications in exploration, logistics, autonomous support, among others.

​El aprendizaje por refuerzo (RL) ha impulsado la robótica móvil, donde los robots aprenden a navegar por terrenos complejos sin reglas predeterminadas o mapas previos altamente detallados. Este trabajo de fin de Master sigue esta tendencia al enfocarse en el diseño, entrenamiento y validación de un modelo utilizando el algoritmo Proximal Policy Optimization (PPO) para el control autónomo de un ROSbot XL simulado en Gazebo Ignition y ROS 2 Humble. El objetivo es entrenar a un agente para lograr metas establecidas y evitar choques mientras se ajustan a las condiciones cambiantes de manera segura y efectiva; todo ello basado únicamente en los datos sensoriales del LIDAR y la odometría del robot.
El enfoque del proyecto radica en crear un entorno de observación que equilibre la riqueza sensorial y la eficiencia computacional al reducir las medidas LIDAR de 282 dimensiones a solo 37. Esto garantiza conservar información crucial para la navegación sin afectar la rapidez del proceso de entrenamiento. Esta estrategia de reducción junto con la definición de la función de recompensa, permitirá que el agente priorice la alineación al objetivo y evitar los obstáculos de manera proactiva, premiando los comportamientos positivos y penalizando aquellas acciones que pongan en riesgo la integridad del robot o su capacidad para completar la tarea asignada.
Para el entrenamiento, se realizó la integración con ROS 2, Gazebo Ignition y Gymnasium, estableciendo un entorno modular que permitió al ROSbot aprender en 200,000 pasos de entrenamiento en la simulación, con supervisión constante de métricas mediante TensorBoard. Se empleó una arquitectura MLP para procesar observaciones vectoriales de forma eficiente, logrando un aprendizaje progresivo en el que el agente desarrolló maniobras de avance alineado, evasión de colisiones y desbloqueo ante estancamientos, consolidando una política robusta y segura.
En la etapa de validación del modelo, los resultados demostraron que el agente logró alcanzar exitosamente diversos objetivos tanto en escenarios familiares (ya vistos durante el entrenamiento) como en ambientes nuevos con obstáculos. El robot no dependió en ningún momento de la memorización de rutas concretas, sino que tomó decisiones en tiempo real basadas únicamente en sus percepciones sensoriales. Estos resultados también apoyan la usabilidad y aplicabilidad del aprendizaje por refuerzo en escenarios de robótica en simulación, para la posterior transferencia de políticas aprendidas a entornos real.
Finalmente, este Trabajo de Fin de Master presenta una contribución práctica y académica en el área de la robótica móvil, mostrando cómo el aprendizaje por refuerzo puede ser aplicado para crear agentes que pueden navegar por espacios complejos de manera progresiva, segura y autónoma, presentando un proceso de aprendizaje modular y reproducible utilizando herramientas de código abierto como ROS 2, Gazebo y Stable-Baselines 3, y estableciendo bases sólidas para futuras investigaciones y aplicaciones en exploración, logística, soporte autónomo, entre otros.
–ABSTRACT–
Reinforcement learning (RL) has driven mobile robotics, where robots learn to navigate complex terrains without predetermined rules or highly detailed prior maps. This master’s thesis follows this trend by focusing on the design, training, and validation of a model using the Proximal Policy Optimization (PPO) algorithm for the autonomous control of a ROSbot XL simulated in Gazebo Ignition and ROS 2 Humble. The objective is to train an agent to achieve established goals and avoid collisions while adapting safely and effectively to changing conditions; all of this based solely on the robot’s LIDAR and odometry sensor data.
The project’s approach lies in creating an observation environment that balances sensory richness and computational efficiency by reducing the LIDAR measurements from 282 dimensions to only 37. This ensures that crucial navigation information is preserved without affecting the speed of the training process. This reduction strategy, along with the definition of the reward function, will allow the agent to prioritize goal alignment and proactively avoid obstacles, rewarding positive behaviors and penalizing actions that put the robot’s integrity or its ability to complete the assigned task at risk.
For the training, integration with ROS 2, Gazebo Ignition, and Gymnasium was carried out, establishing a modular environment that allowed the ROSbot to learn in 200,000 training steps in the simulation, with constant metric monitoring through TensorBoard. An MLP architecture was used to efficiently process vector observations, achieving progressive learning in which the agent developed aligned forward maneuvers, collision avoidance, and recovery from getting stuck, consolidating a robust and safe policy.
In the model validation stage, the results showed that the agent successfully achieved various objectives both in familiar scenarios (already seen during training) and in new environments with obstacles. The robot did not rely at any time on memorizing specific routes but instead made real-time decisions based solely on its sensory perceptions. These results also support the usability and applicability of reinforcement learning in robotics scenarios in simulation for the subsequent transfer of learned policies to real environments.
Finally, this master’s thesis presents a practical and academic contribution in the field of mobile robotics, showing how reinforcement learning can be applied to create agents capable of progressively, safely, and autonomously navigating complex spaces, presenting a modular and reproducible learning process using open-source tools such as ROS 2, Gazebo, and Stable-Baselines 3, and establishing solid foundations for future research and applications in exploration, logistics, autonomous support, among others. Read More