Resolución de problemas de formación de equipos en juegos con “Monte-Carlo Tree Search” y modelos de lenguaje

Bookmark (0)
Please login to bookmark Close

En la última década, el avance de la inteligencia artificial ha abierto nuevas posibilidades en la resolución de problemas complejos, incluidos los juegos de estrategia. En este contexto, VGC AI 2025 ofrece un entorno competitivo en el que cada participante debe crear un agente capaz de seleccionar equipos Pokémon de la manera más efectiva. Aunque las bases del concurso no exigen el uso de modelos de lenguaje, este trabajo aprovecha el marco de VGC AI 2.0 para incorporar dos LLM de última generación, Llama 3.1 y DeepSeek-distill, y evaluar su impacto en la construcción de equipos. También se aprovecha la experiencia de la investigación de la edición anterior, en la que se probaron distintos agentes con otros LLM, para usar ese conocimiento y avanzar hacia soluciones más efectivas.
Para ello, se comparan tres enfoques principales. El primero emplea únicamente Monte Carlo Tree Search para explorar combinaciones de equipos mediante simulaciones aleatorias. El segundo añade a Llama 3.1 como fuente de razonamiento avanzado, utilizando técnicas de text prompting que siguen principios de ingeniería de prompts responsables. El tercero integra DeepSeek-distill, la versión destilada de Llama 3.1, a fin de mantener el mismo tipo de razonamiento estratégico con un coste de inferencia reducido. Además, se aplica fine tuning para simplificar las instrucciones que se envían a los modelos y se registra en cada batalla un historial de equipos ganadores y perdedores junto con el equipo utilizado y la evolución del ELO. Este registro contextual actúa como un esquema de RAG simplificado, alimentando a los LLM con información relevante de partidas anteriores.
Con estas tres estrategias se pretende determinar qué combinación ofrece el mejor equilibrio entre calidad de las decisiones y velocidad de selección dentro del Championship Track de VGC AI 2.0. Los resultados de esta comparación servirán para entender cómo los modelos de lenguaje, cuando se utilizan de forma adecuada, pueden mejorar significativamente el proceso de construcción de equipos en juegos de estrategia.
ABSTRACT
Over the past decade, advances in artificial intelligence have opened new possibilities for solving complex problems, including those found in strategy games. In this context, VGC AI 2025 presents a competitive environment in which each participant must create an agent capable of selecting Pokémon teams as effectively as possible. Although the competition rules do not require the use of language models, this work leverages the VGC AI 2.0 framework to incorporate two state-of-the-art LLMs, Llama 3.1 and DeepSeek, and evaluate their impact on team building. It also draws on the experience gained from the previous edition, in which various agents using other LLMs were tested, in order to build on that knowledge and move toward more effective solutions.
To this end, three main approaches are compared. The first relies solely on Monte Carlo Tree Search (MCTS) to explore team combinations through random simulations. The second adds Llama 3.1 as a source of advanced reasoning, using text prompting techniques aligned with principles of responsible prompt engineering. The third integrates DeepSeek-distill, the distilled version of Llama3.1, in order to maintain a similar level of strategic reasoning at a lower inference cost. In addition, fine-tuning is applied to simplify the instructions sent to the models, and each battle logs a history of winning and losing teams, along with the team used and its ELO progression. This contextual log functions as a simplified Retrieval-Augmented Generation (RAG) mechanism, feeding the LLMs with relevant information from previous matches.
These three strategies aim to identify which combination offers the best balance between decision quality and selection speed within the Championship Track of VGC AI 2.0. The results of this comparison will help demonstrate how, when properly integrated, language models can significantly improve the team-building process in strategy games.

​En la última década, el avance de la inteligencia artificial ha abierto nuevas posibilidades en la resolución de problemas complejos, incluidos los juegos de estrategia. En este contexto, VGC AI 2025 ofrece un entorno competitivo en el que cada participante debe crear un agente capaz de seleccionar equipos Pokémon de la manera más efectiva. Aunque las bases del concurso no exigen el uso de modelos de lenguaje, este trabajo aprovecha el marco de VGC AI 2.0 para incorporar dos LLM de última generación, Llama 3.1 y DeepSeek-distill, y evaluar su impacto en la construcción de equipos. También se aprovecha la experiencia de la investigación de la edición anterior, en la que se probaron distintos agentes con otros LLM, para usar ese conocimiento y avanzar hacia soluciones más efectivas.
Para ello, se comparan tres enfoques principales. El primero emplea únicamente Monte Carlo Tree Search para explorar combinaciones de equipos mediante simulaciones aleatorias. El segundo añade a Llama 3.1 como fuente de razonamiento avanzado, utilizando técnicas de text prompting que siguen principios de ingeniería de prompts responsables. El tercero integra DeepSeek-distill, la versión destilada de Llama 3.1, a fin de mantener el mismo tipo de razonamiento estratégico con un coste de inferencia reducido. Además, se aplica fine tuning para simplificar las instrucciones que se envían a los modelos y se registra en cada batalla un historial de equipos ganadores y perdedores junto con el equipo utilizado y la evolución del ELO. Este registro contextual actúa como un esquema de RAG simplificado, alimentando a los LLM con información relevante de partidas anteriores.
Con estas tres estrategias se pretende determinar qué combinación ofrece el mejor equilibrio entre calidad de las decisiones y velocidad de selección dentro del Championship Track de VGC AI 2.0. Los resultados de esta comparación servirán para entender cómo los modelos de lenguaje, cuando se utilizan de forma adecuada, pueden mejorar significativamente el proceso de construcción de equipos en juegos de estrategia.
ABSTRACT
Over the past decade, advances in artificial intelligence have opened new possibilities for solving complex problems, including those found in strategy games. In this context, VGC AI 2025 presents a competitive environment in which each participant must create an agent capable of selecting Pokémon teams as effectively as possible. Although the competition rules do not require the use of language models, this work leverages the VGC AI 2.0 framework to incorporate two state-of-the-art LLMs, Llama 3.1 and DeepSeek, and evaluate their impact on team building. It also draws on the experience gained from the previous edition, in which various agents using other LLMs were tested, in order to build on that knowledge and move toward more effective solutions.
To this end, three main approaches are compared. The first relies solely on Monte Carlo Tree Search (MCTS) to explore team combinations through random simulations. The second adds Llama 3.1 as a source of advanced reasoning, using text prompting techniques aligned with principles of responsible prompt engineering. The third integrates DeepSeek-distill, the distilled version of Llama3.1, in order to maintain a similar level of strategic reasoning at a lower inference cost. In addition, fine-tuning is applied to simplify the instructions sent to the models, and each battle logs a history of winning and losing teams, along with the team used and its ELO progression. This contextual log functions as a simplified Retrieval-Augmented Generation (RAG) mechanism, feeding the LLMs with relevant information from previous matches.
These three strategies aim to identify which combination offers the best balance between decision quality and selection speed within the Championship Track of VGC AI 2.0. The results of this comparison will help demonstrate how, when properly integrated, language models can significantly improve the team-building process in strategy games. Read More