Uso de algoritmos de Aprendizaje por refuerzo en el desarrollo de videojuegos

Please login to bookmark

En esta memoria se plantea y se demuestra que el uso de agentes en las fases de producción de un videojuego sirven para entender en profundidad sistemas altamente complejos, lo cual permite a los desarrolladores asegurar que el producto es estable, su uso óptimo es el esperado.
A día de hoy, la industria de los videojuegos está empezando a apoyarse en la Inteligencia Artificial para agilizar procesos de producción, para mejorar y personalizar la experiencia a los jugadores, e incluso para crear nuevos tipos de videojuegos. En este proyecto, se crea un videojuego simple, que se pondrá a prueba usando algoritmos de aprendizaje por refuerzo. De esta forma, se demostrará qué beneficios tiene el uso de estos agentes para que el videojuego creado sea estable.
Tras la creación del juego, se usan los algoritmos Advantage Actor Critic (A2C) y Proximal Policy Optimization (PPO) para entrenar agentes en una fase de pruebas. Durante estos entrenamientos, los agentes descubren errores de código, fallos de diseño e incluso soluciones inesperadas y óptimas que crean un bucle de gameplay no deseado. Gracias a estas pruebas, el juego final no tiene errores y la forma de jugarlo para superarlo es la esperada.
Abstract:
This report claims and proves that using intelligent agents with reinforcement learning can be used to understand complex environments; helping developers ensure that the product is stable and that the best way to play it is the expected one.
Nowadays, the videogame industry is starting to be supported by artificial intelligence to shorten development processes, to improve and personalize the user experience, and even create new types of videogames. In this project, a simple videogame is created, and it’s tested by agents which use reinforcement learning. Through this process, it is demonstrated that this idea translates to stable products.
Once the game was created, the game is tested by agents using Advantage Actor Critic (A2C) and Proximal Policy Optimization (PPO). Thanks to this method, the agents discover bugs, mistakes in its design and even an unexpected and unwanted optimized way to beat the game; resulting in a stable final product.

Uso de algoritmos de Aprendizaje por refuerzo en el desarrollo de videojuegos

Continuar buscando...

Nueva Información Actualizada

Related posts: