Aplicación web para la comparación de LLMs en la resolución de exámenes tipo test

Please login to bookmark

Este proyecto surge de la necesidad de plantear un análisis de grandes modelos de lenguaje (Large Language Models, LLMs), con el objetivo de evaluar si su uso pudiese servir de ayuda a los profesores a la hora de realizar exámenes, guías de asignaturas, etc., y a los alumnos preparando las asignaturas. El trabajo fin de grado además se plantea dentro de un proyecto de innovación docente realizado como colaboración entre universidades como la Universidad de Oviedo y la Universidad Politécnica de Madrid.
El principal objetivo es crear un sistema que sea capaz de permitir a un profesor subir un archivo de texto, cuyo contenido sea un examen tipo test, seleccionando una asignatura ya creada o creando una nueva, y tenga la oportunidad de elegir entre varios LLMs para que resuelva el examen subido. Posteriormente, el LLM responderá a las cuestiones y el sistema será capaz de evaluar las respuestas y almacenar la evaluación. De esta manera se consigue que el usuario pueda consultar, en un futuro, aquellos datos que le interesen para tomar sus propias decisiones acerca de qué LLM le resulta más efectivo, ya sea para una asignatura en concreto, una media total de evaluaciones u otro criterio.
Se realizó un estudio previo realizando comparaciones entre varios LLMs, analizando sus respuestas, el tiempo que lleva obtenerlas, el nivel de fiabilidad de las mismas y cómo un prompt puede afectar al resultado. Otros aspectos a tener en cuenta fueron el tamaño del LLM y los recursos del equipo en el que se realizaban las pruebas. Este estudio previo se realizó manualmente para hacer una preselección de modelos que utilizar durante el desarrollo y conocer cuál es el proceso que debía automatizar la aplicación web a desarrollar.
A la hora de plantear la implementación, se hizo un análisis de tecnologías de desarrollo web y lenguajes de programación. Como resultado, se optó por utilizar el Framework Django y desplegar los LLM locales usando Ollama como motor de inferencia.
Una vez desarrollado el sistema, se realizaron diversas pruebas para verificar su correcto funcionamiento. El sistema desarrollado, llamado GenAI Grader, se liberó con licencia MIT y se publicó en GitHub.
Con las pruebas finalizadas, se realizó un estudio para analizar el potencial del sistema y obtener los resultados de las comparativas entre distintos LLMs y decidir cuál es el que mejor se adapta a las necesidades del usuario. Se encontró que, de los modelos probados, los Gemini de Google obtenían los mejores resultados. Estos modelos son externos, pero se encontró que los modelos Qwen, que pueden desplegarse localmente, lograron un rendimiento apenas un punto inferior sobre diez, aproximadamente.
Abstract:
This project arises from the need to analyze large language models (LLMs), with the aim of evaluating whether their use could assist teachers in creating exams, course guides, etc., and help students in preparing for their courses. The final degree project is also framed within a teaching innovation initiative carried out in collaboration between universities such as the University of Oviedo and the Polytechnic University of Madrid.
The main objective is to create a system that allows a teacher to upload a text file containing a multiple-choice exam, selecting an already created subject or creating a new one, and choose among several LLMs to solve the uploaded exam. The LLM will then answer the questions, and the system will be able to evaluate the responses and store the results. This way, the user can later consult the data of interest to make informed decisions about which LLM is most effective, whether for a specific subject, an average across all evaluations, or other criteria.
A preliminary study was conducted by comparing various LLMs, analyzing their answers, the time taken to obtain them, their reliability, and how prompts can affect the outcome. Other aspects considered included the size of the LLM and the hardware resources used during testing. This preliminary study was carried out manually to pre-select models for development and to better understand the process that the web application would need to automate.
When designing the implementation, a review of web development technologies and programming languages was conducted. As a result, the Django framework was chosen, and local LLMs were deployed using Ollama as the inference engine.
Once the system was developed, several tests were conducted to ensure its proper functioning. The resulting system, named GenAI Grader, was released under the MIT license and published on GitHub.
After completing the tests, a study was conducted to analyze the system’s potential and to gather comparative results between different LLMs in order to determine which best meets the user’s needs. It was found that, among the tested models, Google’s Gemini models achieved the best results. These are external models, but it was also found that Qwen models, which can be deployed locally, achieved a performance only about one point lower on a ten-point scale.

Aplicación web para la comparación de LLMs en la resolución de exámenes tipo test

Continuar buscando...

Nueva Información Actualizada

Related posts: