Este Trabajo de Fin de Grado tiene como objetivo desarrollar un sistema capaz de inferir el año de publicación de un Trabajo de Fin de Grado (TFG) a partir únicamente de su resumen textual. La propuesta se enmarca dentro del ámbito del procesamiento del lenguaje natural (PLN) y la clasificación supervisada, y busca explorar la viabilidad de utilizar información textual limitada para extraer patrones temporales útiles en entornos académicos. La base de datos utilizada se construyó de forma automática mediante técnicas de web scraping aplicadas al Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM), seleccionando TFGs pertenecientes a cuatro titulaciones distintas y distribuidos equitativamente entre los años 2016 y 2024. Cada TFG fue representado mediante su resumen, y se aplicó un preprocesamiento exhaustivo que incluyó conversión a minúsculas, eliminación de caracteres no alfabéticos, tokenización, eliminación de stopwords, lematización y stemming. En cuanto a la representación vectorial, se emplearon dos enfoques: TF-IDF y Word2Vec. Los resúmenes fueron posteriormente clasificados utilizando cuatro modelos supervisados: K-Nearest Neighbors, Naive Bayes (Multinomial y Gaussiano), Random Forest y XGBoost. Cada modelo fue evaluado en combinación con las dos técnicas de representación y ambas variantes de preprocesamiento léxico. Los experimentos se realizaron con dos esquemas de etiquetas: uno de nueve clases (una por cada año entre 2016 y 2024) y otro reducido a tres clases agrupadas: 2016–2018, 2019–2021 y 2022–2024. Los resultados mostraron que la clasificación con tres etiquetas produjo métricas significativamente superiores. La mejor configuración fue la combinación de Random Forest, TF-IDF y stemming, con un F1 macro de 0.4321. En el caso de las nueve etiquetas, el mejor rendimiento lo ofreció XGBoost con TF-IDF y lematización, alcanzando un F1 macro de 0.1527 y un error medio en la predicción de 2.67 años. Además del análisis de resultados, el trabajo reflexiona sobre la influencia del preprocesamiento, la representación semántica y la granularidad de la clasificación en el rendimiento de los modelos. También se aborda el impacto potencial del sistema en distintos contextos —personal, empresarial, social, económico, medioambiental y cultural—, y se identifican varios Objetivos de Desarrollo Sostenible (ODS) con los que el proyecto se alinea, como el ODS 4 (Educación de calidad) y el ODS 9 (Industria, innovación e infraestructura). Finalmente, se proponen futuras líneas de trabajo, como el uso de técnicas no supervisadas como el clustering, la ampliación del corpus y la inclusión de más campos textuales. El trabajo concluye demostrando que es posible inferir información temporal relevante a partir de textos breves como los resúmenes de TFGs, utilizando herramientas accesibles y eficientes.
ABSTRACT
This Final Degree Project aims to develop a system capable of inferring the year of publication of a Final Degree Project (TFG) based solely on its textual abstract. The proposal falls within the scope of natural language processing (NLP) and supervised classification, and seeks to explore the feasibility of using limited textual information to extract useful temporal patterns in academic contexts. The dataset was automatically built using web scraping techniques applied to the Digital Archive of the Universidad Politécnica de Madrid (AD-UPM), selecting TFGs from four different degree programs, evenly distributed between the years 2016 and 2024. Each TFG was represented by its abstract, and underwent thorough preprocessing that included lowercasing, removal of non-alphabetic characters, tokenization, stopword removal, lemmatization, and stemming. Two vector representation techniques were applied: TF-IDF and Word2Vec. The abstracts were then classified using four supervised models: K-Nearest Neighbors, Naive Bayes (Multinomial and Gaussian), Random Forest, and XGBoost. Each model was evaluated in combination with the two vectorization strategies and both lexical preprocessing variants. Experiments were conducted with two labeling schemes: one with nine classes (one for each year from 2016 to 2024), and a simplified one with three grouped classes: 2016–2018, 2019–2021, and 2022–2024. The results showed that the three-class classification yielded significantly better performance. The best configuration combined Random Forest, TF-IDF, and stemming, achieving a macro F1 score of 0.4321. In the nine-class scenario, the best result came from XGBoost with TF-IDF and lemmatization, reaching a macro F1 score of 0.1527 and an average prediction error of 2.67 years. In addition to the results analysis, the work discusses the impact of preprocessing, semantic representation, and label granularity on model performance. It also addresses the potential impact of the system in various contexts—personal, business, social, economic, environmental, and cultural—and identifies several Sustainable Development Goals (SDGs) aligned with the project, such as SDG 4 (Quality Education) and SDG 9 (Industry, Innovation and Infrastructure). Finally, future lines of work are proposed, including the use of unsupervised techniques such as clustering, expanding the corpus, and incorporating additional textual fields. The work concludes by demonstrating that it is indeed possible to infer relevant temporal information from short texts such as TFG abstracts using accessible and efficient tools.
Este Trabajo de Fin de Grado tiene como objetivo desarrollar un sistema capaz de inferir el año de publicación de un Trabajo de Fin de Grado (TFG) a partir únicamente de su resumen textual. La propuesta se enmarca dentro del ámbito del procesamiento del lenguaje natural (PLN) y la clasificación supervisada, y busca explorar la viabilidad de utilizar información textual limitada para extraer patrones temporales útiles en entornos académicos. La base de datos utilizada se construyó de forma automática mediante técnicas de web scraping aplicadas al Archivo Digital de la Universidad Politécnica de Madrid (AD-UPM), seleccionando TFGs pertenecientes a cuatro titulaciones distintas y distribuidos equitativamente entre los años 2016 y 2024. Cada TFG fue representado mediante su resumen, y se aplicó un preprocesamiento exhaustivo que incluyó conversión a minúsculas, eliminación de caracteres no alfabéticos, tokenización, eliminación de stopwords, lematización y stemming. En cuanto a la representación vectorial, se emplearon dos enfoques: TF-IDF y Word2Vec. Los resúmenes fueron posteriormente clasificados utilizando cuatro modelos supervisados: K-Nearest Neighbors, Naive Bayes (Multinomial y Gaussiano), Random Forest y XGBoost. Cada modelo fue evaluado en combinación con las dos técnicas de representación y ambas variantes de preprocesamiento léxico. Los experimentos se realizaron con dos esquemas de etiquetas: uno de nueve clases (una por cada año entre 2016 y 2024) y otro reducido a tres clases agrupadas: 2016–2018, 2019–2021 y 2022–2024. Los resultados mostraron que la clasificación con tres etiquetas produjo métricas significativamente superiores. La mejor configuración fue la combinación de Random Forest, TF-IDF y stemming, con un F1 macro de 0.4321. En el caso de las nueve etiquetas, el mejor rendimiento lo ofreció XGBoost con TF-IDF y lematización, alcanzando un F1 macro de 0.1527 y un error medio en la predicción de 2.67 años. Además del análisis de resultados, el trabajo reflexiona sobre la influencia del preprocesamiento, la representación semántica y la granularidad de la clasificación en el rendimiento de los modelos. También se aborda el impacto potencial del sistema en distintos contextos —personal, empresarial, social, económico, medioambiental y cultural—, y se identifican varios Objetivos de Desarrollo Sostenible (ODS) con los que el proyecto se alinea, como el ODS 4 (Educación de calidad) y el ODS 9 (Industria, innovación e infraestructura). Finalmente, se proponen futuras líneas de trabajo, como el uso de técnicas no supervisadas como el clustering, la ampliación del corpus y la inclusión de más campos textuales. El trabajo concluye demostrando que es posible inferir información temporal relevante a partir de textos breves como los resúmenes de TFGs, utilizando herramientas accesibles y eficientes.
ABSTRACT
This Final Degree Project aims to develop a system capable of inferring the year of publication of a Final Degree Project (TFG) based solely on its textual abstract. The proposal falls within the scope of natural language processing (NLP) and supervised classification, and seeks to explore the feasibility of using limited textual information to extract useful temporal patterns in academic contexts. The dataset was automatically built using web scraping techniques applied to the Digital Archive of the Universidad Politécnica de Madrid (AD-UPM), selecting TFGs from four different degree programs, evenly distributed between the years 2016 and 2024. Each TFG was represented by its abstract, and underwent thorough preprocessing that included lowercasing, removal of non-alphabetic characters, tokenization, stopword removal, lemmatization, and stemming. Two vector representation techniques were applied: TF-IDF and Word2Vec. The abstracts were then classified using four supervised models: K-Nearest Neighbors, Naive Bayes (Multinomial and Gaussian), Random Forest, and XGBoost. Each model was evaluated in combination with the two vectorization strategies and both lexical preprocessing variants. Experiments were conducted with two labeling schemes: one with nine classes (one for each year from 2016 to 2024), and a simplified one with three grouped classes: 2016–2018, 2019–2021, and 2022–2024. The results showed that the three-class classification yielded significantly better performance. The best configuration combined Random Forest, TF-IDF, and stemming, achieving a macro F1 score of 0.4321. In the nine-class scenario, the best result came from XGBoost with TF-IDF and lemmatization, reaching a macro F1 score of 0.1527 and an average prediction error of 2.67 years. In addition to the results analysis, the work discusses the impact of preprocessing, semantic representation, and label granularity on model performance. It also addresses the potential impact of the system in various contexts—personal, business, social, economic, environmental, and cultural—and identifies several Sustainable Development Goals (SDGs) aligned with the project, such as SDG 4 (Quality Education) and SDG 9 (Industry, Innovation and Infrastructure). Finally, future lines of work are proposed, including the use of unsupervised techniques such as clustering, expanding the corpus, and incorporating additional textual fields. The work concludes by demonstrating that it is indeed possible to infer relevant temporal information from short texts such as TFG abstracts using accessible and efficient tools. Read More


