El presente Trabajo de Fin de Grado tiene como propósito el diseño e implementación de un sistema automático capaz de identificar y adaptar adjetivos sustantivados en textos escritos en español, siguiendo los principios de la Metodología de Lectura Fácil o MLF. Estas construcciones gramaticales son habituales en el lenguaje formal y técnico, y pueden suponer un obstáculo importante para personas con dificultades lectoras o cognitivas. Por ello, su tratamiento automatizado representa un avance significativo en el ámbito de la accesibilidad textual El sistema desarrollado combina reglas lingüísticas con modelos de lenguaje preentrenados, trabajando de forma modular en tres fases consecutivas. La primera se encarga de procesar un conjunto de frases proporcionadas como entrada para identificar estructuras gramaticales complejas. En la segunda fase, se aplica un conjunto de patrones definidos con la biblioteca de Procesamiento del Lenguaje Natural (NLP) spaCy, que permiten localizar adjetivos sustantivados, bien mediante determinantes, cuantificadores, contracciones y numerales, o bien mediante la partícula ‘lo’. Finalmente, en la tercera fase se procede a la adaptación de las frases detectadas utilizando estrategias distintas según el tipo de estructura. Los métodos de adaptación han consistido, o bien en la aplicación de un sistema de reglas; o bien en la utilización de modelos generativos de lenguaje: RoBERTa y Salamandra. El sistema se ha evaluado sobre un corpus de más de 300 frases con resultados que demuestran su eficacia. A pesar de ello, a lo largo del desarrollo del proyecto se han identificado algunas limitaciones técnicas y lingüísticas que han servido como punto de partida para establecer futuras líneas de mejora.
ABSTRACT
This Final Degree Project aims to design and implement an automatic system capable of identifying and adapting substantivized adjectives in Spanish texts, following the principles of the Easy-to-Read Methodology (MLF). These grammatical constructions are common in formal and technical language and can pose a significant barrier for people with reading or cognitive difficulties. Therefore, their automated processing represents a meaningful advancement in the field of textual accessibility. The system developed combines linguistic rules with pre-trained language models and operates in a modular structure composed of three consecutive phases. The first phase processes a set of input sentences to identify complex grammatical structures. In the second phase, a series of patterns defined using the Natural Language Processing (NLP) library spaCy are applied to detect substantivized adjectives, either introduced by determiners, quantifiers, contractions and numerals, or by the particle ‘lo’. In the final phase, the detected phrases are adapted using different strategies depending on their structure. These adaptation methods consist either of applying a rule-based system or of using generative language models: RoBERTa and Salamandra. The system was evaluated on a corpus of over 300 sentences, with results demonstrating its effectiveness. Nevertheless, during development, several technical and linguistic limitations were identified, which have served as a basis for defining future improvements.
El presente Trabajo de Fin de Grado tiene como propósito el diseño e implementación de un sistema automático capaz de identificar y adaptar adjetivos sustantivados en textos escritos en español, siguiendo los principios de la Metodología de Lectura Fácil o MLF. Estas construcciones gramaticales son habituales en el lenguaje formal y técnico, y pueden suponer un obstáculo importante para personas con dificultades lectoras o cognitivas. Por ello, su tratamiento automatizado representa un avance significativo en el ámbito de la accesibilidad textual El sistema desarrollado combina reglas lingüísticas con modelos de lenguaje preentrenados, trabajando de forma modular en tres fases consecutivas. La primera se encarga de procesar un conjunto de frases proporcionadas como entrada para identificar estructuras gramaticales complejas. En la segunda fase, se aplica un conjunto de patrones definidos con la biblioteca de Procesamiento del Lenguaje Natural (NLP) spaCy, que permiten localizar adjetivos sustantivados, bien mediante determinantes, cuantificadores, contracciones y numerales, o bien mediante la partícula ‘lo’. Finalmente, en la tercera fase se procede a la adaptación de las frases detectadas utilizando estrategias distintas según el tipo de estructura. Los métodos de adaptación han consistido, o bien en la aplicación de un sistema de reglas; o bien en la utilización de modelos generativos de lenguaje: RoBERTa y Salamandra. El sistema se ha evaluado sobre un corpus de más de 300 frases con resultados que demuestran su eficacia. A pesar de ello, a lo largo del desarrollo del proyecto se han identificado algunas limitaciones técnicas y lingüísticas que han servido como punto de partida para establecer futuras líneas de mejora.
ABSTRACT
This Final Degree Project aims to design and implement an automatic system capable of identifying and adapting substantivized adjectives in Spanish texts, following the principles of the Easy-to-Read Methodology (MLF). These grammatical constructions are common in formal and technical language and can pose a significant barrier for people with reading or cognitive difficulties. Therefore, their automated processing represents a meaningful advancement in the field of textual accessibility. The system developed combines linguistic rules with pre-trained language models and operates in a modular structure composed of three consecutive phases. The first phase processes a set of input sentences to identify complex grammatical structures. In the second phase, a series of patterns defined using the Natural Language Processing (NLP) library spaCy are applied to detect substantivized adjectives, either introduced by determiners, quantifiers, contractions and numerals, or by the particle ‘lo’. In the final phase, the detected phrases are adapted using different strategies depending on their structure. These adaptation methods consist either of applying a rule-based system or of using generative language models: RoBERTa and Salamandra. The system was evaluated on a corpus of over 300 sentences, with results demonstrating its effectiveness. Nevertheless, during development, several technical and linguistic limitations were identified, which have served as a basis for defining future improvements. Read More


