Explorando la integración entre LLMs y MCTS en los problemas de formación de equipos a través de la competición VGC AI

Bookmark (0)
Please login to bookmark Close

El algoritmo MCTS es uno de los grandes pilares en el desarrollo de agentes de IA para juegos en los que el espacio de decisión es muy amplio y complejo. Por otro lado los modelos de lenguajes representan un gran avance en la interacción con grandes fuentes de información a través de texto, y en juegos se han utilizado sobre todo para analizar comportamientos y para narrativa. La unión de ambos conceptos no ha sido explorada pero ofrece grandes posibilidades para la resolución del problema de formación de equipos en juegos de estrategia por turnos. El objetivo de este trabajo es el probar la viabilidad de la unión entre MCTS y los LLMs utilizando como escenario la competición Pokémon VGC AI. Para lograr esto se ha desarrollado un prototipo de agente híbrido, PokeHit, que permite comprobar el rendimiento de modelos, como Llama o Mistral, y de los métodos heurísticos más tradicionales a través de una competición de VGC AI en la que se forman equipos para posteriormente pelear entre ellos y obtener una clasificación que da una visión del rendimiento de cada participante. Los diferentes experimentos llevados a cabo muestran que los LLMs son capaces de generar estrategias dinámicas pero también sufren de problemas como alucinaciones o pérdida del contexto. A pesar de esto queda evidente que la unión entre Monte Carlo y los modelos de lenguaje es posible y los resultados pueden mejorar significativamente si se emplean técnicas de mejora a los modelos como el fine-tuning y el preentrenamiento en las reglas del juego y su contexto.
ABSTRACT
The MCTS algorithm is one of the fundamental methods in game AI agents development in games where there is a large and complex decision space. LLMs depict a great advance in interaction with large sources of information via text. In games they have been used to, mostly, analyze player behaviour and narrative. The union between the two concepts has not been explored but it offers a great possibility to solve the team formation problem in turn-based strategy games. The objective of this work is to explore the feasibility of LLMs on enhancing MCTS strategies using the VGC AI Pok´emon Competition. In order to achieve this, a prototype has been develop. PokeHit is a hybrid game agent made to incorporate LLMs , such as Llama or Mistral, and the traditional heuristic methods creating a VGC AI competition, in which teams are formed to battle against each other and getting a classification. This allows to have an overall view of the performance of each participant. The multiple experiments made shows that LLMs are capable of generating dynamic strategies but suffer from hallucinations and context loss. However, it is clear that the union of MCTS and language models is feasible and can be improved with fine-tuning and pre-training techniques on game rules and context.

​El algoritmo MCTS es uno de los grandes pilares en el desarrollo de agentes de IA para juegos en los que el espacio de decisión es muy amplio y complejo. Por otro lado los modelos de lenguajes representan un gran avance en la interacción con grandes fuentes de información a través de texto, y en juegos se han utilizado sobre todo para analizar comportamientos y para narrativa. La unión de ambos conceptos no ha sido explorada pero ofrece grandes posibilidades para la resolución del problema de formación de equipos en juegos de estrategia por turnos. El objetivo de este trabajo es el probar la viabilidad de la unión entre MCTS y los LLMs utilizando como escenario la competición Pokémon VGC AI. Para lograr esto se ha desarrollado un prototipo de agente híbrido, PokeHit, que permite comprobar el rendimiento de modelos, como Llama o Mistral, y de los métodos heurísticos más tradicionales a través de una competición de VGC AI en la que se forman equipos para posteriormente pelear entre ellos y obtener una clasificación que da una visión del rendimiento de cada participante. Los diferentes experimentos llevados a cabo muestran que los LLMs son capaces de generar estrategias dinámicas pero también sufren de problemas como alucinaciones o pérdida del contexto. A pesar de esto queda evidente que la unión entre Monte Carlo y los modelos de lenguaje es posible y los resultados pueden mejorar significativamente si se emplean técnicas de mejora a los modelos como el fine-tuning y el preentrenamiento en las reglas del juego y su contexto.
ABSTRACT
The MCTS algorithm is one of the fundamental methods in game AI agents development in games where there is a large and complex decision space. LLMs depict a great advance in interaction with large sources of information via text. In games they have been used to, mostly, analyze player behaviour and narrative. The union between the two concepts has not been explored but it offers a great possibility to solve the team formation problem in turn-based strategy games. The objective of this work is to explore the feasibility of LLMs on enhancing MCTS strategies using the VGC AI Pok´emon Competition. In order to achieve this, a prototype has been develop. PokeHit is a hybrid game agent made to incorporate LLMs , such as Llama or Mistral, and the traditional heuristic methods creating a VGC AI competition, in which teams are formed to battle against each other and getting a classification. This allows to have an overall view of the performance of each participant. The multiple experiments made shows that LLMs are capable of generating dynamic strategies but suffer from hallucinations and context loss. However, it is clear that the union of MCTS and language models is feasible and can be improved with fine-tuning and pre-training techniques on game rules and context. Read More