Un modelo de lenguaje a gran escala (LLM) es una red neuronal con miles de millones de parámetros, entrenada en grandes volúmenes de texto mediante aprendizaje autosupervisado o semisupervisado. Su capacidad para comprender y generar lenguaje natural lo hace clave en aplicaciones como traducción, generación de contenido y análisis de texto. Su importancia radica en su potencial para automatizar procesos, mejorar la eficiencia en diversas industrias y hacer más accesible la información, facilitando la comunicación y el aprendizaje en múltiples idiomas y disciplinas. El Stacking es un método de ensamble de modelos en el que se combinan múltiples modelos base (de diferentes tipos o del mismo tipo con distintas configuraciones) y sus predicciones se usan como entrada para un modelo de nivel superior, llamado meta-modelo o meta-learner. Este modelo final aprende a combinar las predicciones de los modelos base para mejorar la precisión general. El presente TFG tiene como objetivo entrenar un meta-modelo de inteligencia artificial que supere en rendimiento a los grandes modelos de lenguaje disponibles en la actualidad. Para ello, se utilizarán estrategias de ensamble de modelos existentes. El modelo propuesto será evaluado con datasets como MMLU, MMLU-pro o TELE-IA.
Un modelo de lenguaje a gran escala (LLM) es una red neuronal con miles de millones de parámetros, entrenada en grandes volúmenes de texto mediante aprendizaje autosupervisado o semisupervisado. Su capacidad para comprender y generar lenguaje natural lo hace clave en aplicaciones como traducción, generación de contenido y análisis de texto. Su importancia radica en su potencial para automatizar procesos, mejorar la eficiencia en diversas industrias y hacer más accesible la información, facilitando la comunicación y el aprendizaje en múltiples idiomas y disciplinas. El Stacking es un método de ensamble de modelos en el que se combinan múltiples modelos base (de diferentes tipos o del mismo tipo con distintas configuraciones) y sus predicciones se usan como entrada para un modelo de nivel superior, llamado meta-modelo o meta-learner. Este modelo final aprende a combinar las predicciones de los modelos base para mejorar la precisión general. El presente TFG tiene como objetivo entrenar un meta-modelo de inteligencia artificial que supere en rendimiento a los grandes modelos de lenguaje disponibles en la actualidad. Para ello, se utilizarán estrategias de ensamble de modelos existentes. El modelo propuesto será evaluado con datasets como MMLU, MMLU-pro o TELE-IA. Read More


