Control de dirección adaptativo mediante aprendizaje supervisado y reforzado en sistemas de conducción autónoma

Bookmark (0)
Please login to bookmark Close

Los sistemas de conducción autónoma requieren un control de la dirección preciso y adaptativo para funcionar de forma fiable en entornos dinámicos. Los métodos tradicionales, como el PID y el control predictivo de modelos, funcionan bien en condiciones fijas, pero requieren una reconfiguración cuando se enfrentan a la variabilidad. El aprendizaje profundo ofrece una alternativa flexible al aprender estrategias de control directamente a partir de los datos sin necesidad de modelado explícito. Esta tesis investiga un enfoque híbrido de aprendizaje profundo para el control de la dirección, motivado por las competiciones de Fórmula Student sin conductor, que combina el aprendizaje supervisado para el entrenamiento offline con el aprendizaje por refuerzo, concretamente el Deep Q-Learning (DQL), para el ajuste y la adaptación online.
El objetivo principal era evaluar la viabilidad y la eficacia del control de la dirección basado en el aprendizaje profundo en un entorno simulado, centrándose en el aprendizaje offline y la adaptación online. Los objetivos específicos incluían la creación de un conjunto de datos basado en simulaciones de los estados del vehículo y las acciones de dirección, el entrenamiento de varios modelos (MLP, CNN, LSTM, Transformer, Random Forest, XGBoost) mediante regresión supervisada, su evaluación mediante métricas de regresión, la prueba de modelos seleccionados en un simulador de bucle cerrado utilizando métricas de control como el error lateral, y el ajuste del mejor modelo utilizando DQL. También se realizó una prueba preliminar en el mundo real en una plataforma autónoma Mitsubishi I-MiEV.
Los datos se recopilaron y aumentaron utilizando pistas simétricas y desviaciones artificiales para mejorar la generalización. Entre los modelos entrenados, el Transformer logró el mejor rendimiento supervisado y también superó a los demás en la simulación de bucle cerrado con el menor error lateral medio y la menor desviación de la trayectoria. El ajuste fino de DQL mejoró aún más el rendimiento, reduciendo el error lateral en un 11,83% y el área de la trayectoria en un 12,14 por ciento en solo 10 vueltas de entrenamiento. La prueba en el mundo real confirmó la viabilidad del enfoque, con la finalización satisfactoria de la vuelta, aunque con errores más elevados debido al ruido del GPS y a las limitaciones de la plataforma.
En conclusión, el enfoque híbrido que combina el preentrenamiento supervisado y el ajuste fino DQL demostró su eficacia para el control autónomo de la dirección, mostrando una gran generalización y adaptabilidad. El modelo Transformer, en particular, mostró un alto rendimiento y robustez. La metodología reduce la necesidad de ajuste manual y se adapta bien a condiciones variables.
Abstract:
Autonomous driving systems demand precise and adaptive steering control to operate reliably in dynamic environments. Traditional methods like PID and Model Predictive Control perform well under fixed conditions but require reconfiguration when faced with variability. Deep Learning offers a flexible alternative by learning control strategies directly from data without explicit modeling. This thesis investigates a hybrid Deep Learning approach for steering control, motivated by Formula Student driverless competitions, combining supervised learning for offline training with reinforcement learning, specifically Deep Q-Learning (DQL), for online fine-tuning and adaptation.
The main objective was to evaluate the feasibility and effectiveness of Deep Learning-based steering control in a simulated environment, focusing on offline learning and online adaptation. Specific goals included creating a simulation-based dataset of vehicle states and steering actions, training various models (MLP, CNN, LSTM, Transformer, Random Forest, XGBoost) via supervised regression, evaluating them using regression metrics, testing selected models in a closed-loop simulator using control metrics such as lateral error, and fine-tuning the best model using DQL. A preliminary real-world test was also performed on a Mitsubishi I-MiEV autonomous platform.
Data was collected and augmented using symmetric tracks and artificial deviations to improve generalization. Among the trained models, the Transformer achieved the best supervised performance and also outperformed others in closed-loop simulation with the lowest mean lateral error and trajectory deviation. DQL fine-tuning further improved performance, reducing lateral error by 11.83 percent and trajectory area by 12.14 percent in only 10 training laps.The real-world test confirmed the feasibility of the approach, with successful lap completion, although with higher errors due to GPS noise and platform limitations.
In conclusion, the hybrid approach combining supervised pretraining and DQL fine-tuning proved effective for autonomous steering control, demonstrating strong generalization and adaptability. The Transformer model, in particular, showed high performance and robustness. The methodology reduces the need for manual tuning and adapts well to varying conditions.

​Los sistemas de conducción autónoma requieren un control de la dirección preciso y adaptativo para funcionar de forma fiable en entornos dinámicos. Los métodos tradicionales, como el PID y el control predictivo de modelos, funcionan bien en condiciones fijas, pero requieren una reconfiguración cuando se enfrentan a la variabilidad. El aprendizaje profundo ofrece una alternativa flexible al aprender estrategias de control directamente a partir de los datos sin necesidad de modelado explícito. Esta tesis investiga un enfoque híbrido de aprendizaje profundo para el control de la dirección, motivado por las competiciones de Fórmula Student sin conductor, que combina el aprendizaje supervisado para el entrenamiento offline con el aprendizaje por refuerzo, concretamente el Deep Q-Learning (DQL), para el ajuste y la adaptación online.
El objetivo principal era evaluar la viabilidad y la eficacia del control de la dirección basado en el aprendizaje profundo en un entorno simulado, centrándose en el aprendizaje offline y la adaptación online. Los objetivos específicos incluían la creación de un conjunto de datos basado en simulaciones de los estados del vehículo y las acciones de dirección, el entrenamiento de varios modelos (MLP, CNN, LSTM, Transformer, Random Forest, XGBoost) mediante regresión supervisada, su evaluación mediante métricas de regresión, la prueba de modelos seleccionados en un simulador de bucle cerrado utilizando métricas de control como el error lateral, y el ajuste del mejor modelo utilizando DQL. También se realizó una prueba preliminar en el mundo real en una plataforma autónoma Mitsubishi I-MiEV.
Los datos se recopilaron y aumentaron utilizando pistas simétricas y desviaciones artificiales para mejorar la generalización. Entre los modelos entrenados, el Transformer logró el mejor rendimiento supervisado y también superó a los demás en la simulación de bucle cerrado con el menor error lateral medio y la menor desviación de la trayectoria. El ajuste fino de DQL mejoró aún más el rendimiento, reduciendo el error lateral en un 11,83% y el área de la trayectoria en un 12,14 por ciento en solo 10 vueltas de entrenamiento. La prueba en el mundo real confirmó la viabilidad del enfoque, con la finalización satisfactoria de la vuelta, aunque con errores más elevados debido al ruido del GPS y a las limitaciones de la plataforma.
En conclusión, el enfoque híbrido que combina el preentrenamiento supervisado y el ajuste fino DQL demostró su eficacia para el control autónomo de la dirección, mostrando una gran generalización y adaptabilidad. El modelo Transformer, en particular, mostró un alto rendimiento y robustez. La metodología reduce la necesidad de ajuste manual y se adapta bien a condiciones variables.
Abstract:
Autonomous driving systems demand precise and adaptive steering control to operate reliably in dynamic environments. Traditional methods like PID and Model Predictive Control perform well under fixed conditions but require reconfiguration when faced with variability. Deep Learning offers a flexible alternative by learning control strategies directly from data without explicit modeling. This thesis investigates a hybrid Deep Learning approach for steering control, motivated by Formula Student driverless competitions, combining supervised learning for offline training with reinforcement learning, specifically Deep Q-Learning (DQL), for online fine-tuning and adaptation.
The main objective was to evaluate the feasibility and effectiveness of Deep Learning-based steering control in a simulated environment, focusing on offline learning and online adaptation. Specific goals included creating a simulation-based dataset of vehicle states and steering actions, training various models (MLP, CNN, LSTM, Transformer, Random Forest, XGBoost) via supervised regression, evaluating them using regression metrics, testing selected models in a closed-loop simulator using control metrics such as lateral error, and fine-tuning the best model using DQL. A preliminary real-world test was also performed on a Mitsubishi I-MiEV autonomous platform.
Data was collected and augmented using symmetric tracks and artificial deviations to improve generalization. Among the trained models, the Transformer achieved the best supervised performance and also outperformed others in closed-loop simulation with the lowest mean lateral error and trajectory deviation. DQL fine-tuning further improved performance, reducing lateral error by 11.83 percent and trajectory area by 12.14 percent in only 10 training laps.The real-world test confirmed the feasibility of the approach, with successful lap completion, although with higher errors due to GPS noise and platform limitations.
In conclusion, the hybrid approach combining supervised pretraining and DQL fine-tuning proved effective for autonomous steering control, demonstrating strong generalization and adaptability. The Transformer model, in particular, showed high performance and robustness. The methodology reduces the need for manual tuning and adapts well to varying conditions. Read More