El presente Trabajo de Fin de Máster se centra en el estudio del razonamiento en grandes modelos de lenguaje (Large Language Models, LLMs).
En primer lugar, se lleva a cabo una revisión sistemática del estado del arte, abarcando los mecanismos propuestos para desarrollar tanto las habilidades intrínsecas como los resultados de los LLMs en tareas de razonamiento. Asimismo, se analizan los métodos o benchmarks empleados para su evaluación.
Sobre esta base teórica, se propone un enfoque metodológico dirigido a mejorar el rendimiento de los LLMs en tareas de razonamiento, entendiendo como mejora un aumento de la accuracy en los resultados.
Dicha propuesta consiste en la creación de un sistema de agentes especializados en razonamiento lógico, matemático y en búsqueda de información. La metodología es implementada y evaluada empíricamente utilizando el benchmark MMLU-Pro y GSMHard. Dicho análisis experimental comprende una comparación cuantitativa respecto a líneas base establecidas a partir de LLMs de referencia.
Los resultados obtenidos permiten valorar la eficacia de la propuesta y ofrecen una visión crítica sobre los desafíos actuales en la evaluación y mejora del razonamiento en LLMs, abriendo nuevas líneas de investigación.
–ABSTRACT–
This Master’s Thesis focuses on the study of reasoning in Large Language Models (LLMs).
First, a systematic review of the state of the art is conducted, covering the mechanisms proposed to develop both the intrinsic capabilities and the performance of LLMs on reasoning tasks. Additionally, the evaluation methods and benchmarks commonly used in this context are analyzed.
Building upon this theoretical foundation, a methodological approach is proposed to enhance LLM performance in reasoning tasks, where improvement is understood as an increase in accuracy.
The proposed approach consists of developing a system of agents specializing in logical reasoning, mathematics, and information retrieval. The methodology is implemented and empirically evaluated using the MMLU-Pro and GSM-Hard benchmarks. The experimental analysis includes a quantitative comparison against established baselines derived from state-of-the-art LLMs.
The results obtained allow for an assessment of the proposal’s effectiveness and provide a critical perspective on current challenges in evaluating and improving reasoning in LLMs, opening up new avenues for research.
El presente Trabajo de Fin de Máster se centra en el estudio del razonamiento en grandes modelos de lenguaje (Large Language Models, LLMs).
En primer lugar, se lleva a cabo una revisión sistemática del estado del arte, abarcando los mecanismos propuestos para desarrollar tanto las habilidades intrínsecas como los resultados de los LLMs en tareas de razonamiento. Asimismo, se analizan los métodos o benchmarks empleados para su evaluación.
Sobre esta base teórica, se propone un enfoque metodológico dirigido a mejorar el rendimiento de los LLMs en tareas de razonamiento, entendiendo como mejora un aumento de la accuracy en los resultados.
Dicha propuesta consiste en la creación de un sistema de agentes especializados en razonamiento lógico, matemático y en búsqueda de información. La metodología es implementada y evaluada empíricamente utilizando el benchmark MMLU-Pro y GSMHard. Dicho análisis experimental comprende una comparación cuantitativa respecto a líneas base establecidas a partir de LLMs de referencia.
Los resultados obtenidos permiten valorar la eficacia de la propuesta y ofrecen una visión crítica sobre los desafíos actuales en la evaluación y mejora del razonamiento en LLMs, abriendo nuevas líneas de investigación.
–ABSTRACT–
This Master’s Thesis focuses on the study of reasoning in Large Language Models (LLMs).
First, a systematic review of the state of the art is conducted, covering the mechanisms proposed to develop both the intrinsic capabilities and the performance of LLMs on reasoning tasks. Additionally, the evaluation methods and benchmarks commonly used in this context are analyzed.
Building upon this theoretical foundation, a methodological approach is proposed to enhance LLM performance in reasoning tasks, where improvement is understood as an increase in accuracy.
The proposed approach consists of developing a system of agents specializing in logical reasoning, mathematics, and information retrieval. The methodology is implemented and empirically evaluated using the MMLU-Pro and GSM-Hard benchmarks. The experimental analysis includes a quantitative comparison against established baselines derived from state-of-the-art LLMs.
The results obtained allow for an assessment of the proposal’s effectiveness and provide a critical perspective on current challenges in evaluating and improving reasoning in LLMs, opening up new avenues for research. Read More


