Este Trabajo de Fin de Grado consiste en realizar un análisis estadístico sobre una muestra de datos obtenidos del Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM) para posteriormente, como objetivo principal del TFG, desarrollar un modelo de clasificación centrado en la variable Titulación de Grado. Para obtener los datos sobre los que se va a trabajar, previamente se realizará un estudio de la fuente de información (AD-UPM), una definición de la muestra y una selección del método de muestreo, para a continuación extraer los datos y prepararlos. Dicha muestra se obtendrá de los Grados que tengan mayor número de TFG’S subidos al Archivo Digital para tener un mayor conjunto de datos disponibles, minimizando así el error y obteniendo un modelo más robusto. Se creará una base de datos donde se guardará la Titulación del Grado, el título y el resumen de cada TFG, siendo las dos últimas las variables a modelizar, a opción de añadir más en función del rendimiento del clasificador. Además, se llevará acabo un análisis de los principales métodos de clasificación, buscando así el que mejor se ajuste con los datos disponibles y comparando los distintos resultados que se vayan obteniendo.
ABSTRACT
This Final Degree Project consists of carrying out a statistical analysis on a sample of data obtained from Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM) to subsequently, as the main objective of the TFG, develop a classification model focused on the variable Degree Qualification. To obtain the data on which to work, a study of the information source (AD-UPM), a definition of the sample and a selection of the sampling method will be previously carried out, in order to then extract the data and prepare it. This sample will be obtained from the Degrees that have the largest number of TFG’s uploaded to the Digital Archive in order to have a larger set of available data, thus minimizing the error and obtaining a more robust model. A database will be created where the Degree Title, the title and the summary of each TFG will be stored, the last two being the variables to be modelled, with the option of adding more depending on the performance of the classifier. In addition, an analysis of the main classification methods will be carried out, thus looking for the one that best fits the available data and comparing the different results that are obtained.
Este Trabajo de Fin de Grado consiste en realizar un análisis estadístico sobre una muestra de datos obtenidos del Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM) para posteriormente, como objetivo principal del TFG, desarrollar un modelo de clasificación centrado en la variable Titulación de Grado. Para obtener los datos sobre los que se va a trabajar, previamente se realizará un estudio de la fuente de información (AD-UPM), una definición de la muestra y una selección del método de muestreo, para a continuación extraer los datos y prepararlos. Dicha muestra se obtendrá de los Grados que tengan mayor número de TFG’S subidos al Archivo Digital para tener un mayor conjunto de datos disponibles, minimizando así el error y obteniendo un modelo más robusto. Se creará una base de datos donde se guardará la Titulación del Grado, el título y el resumen de cada TFG, siendo las dos últimas las variables a modelizar, a opción de añadir más en función del rendimiento del clasificador. Además, se llevará acabo un análisis de los principales métodos de clasificación, buscando así el que mejor se ajuste con los datos disponibles y comparando los distintos resultados que se vayan obteniendo.
ABSTRACT
This Final Degree Project consists of carrying out a statistical analysis on a sample of data obtained from Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM) to subsequently, as the main objective of the TFG, develop a classification model focused on the variable Degree Qualification. To obtain the data on which to work, a study of the information source (AD-UPM), a definition of the sample and a selection of the sampling method will be previously carried out, in order to then extract the data and prepare it. This sample will be obtained from the Degrees that have the largest number of TFG’s uploaded to the Digital Archive in order to have a larger set of available data, thus minimizing the error and obtaining a more robust model. A database will be created where the Degree Title, the title and the summary of each TFG will be stored, the last two being the variables to be modelled, with the option of adding more depending on the performance of the classifier. In addition, an analysis of the main classification methods will be carried out, thus looking for the one that best fits the available data and comparing the different results that are obtained. Read More


