Los enunciados con sentido figurado, como los refranes son elementos de difícil comprensión por parte de ciertos colectivos (personas con discapacidad cognitiva, extranjeros con conocimientos limitados del idioma, entre otros). En la actualidad muchos de estos refranes son utilizados tanto en conversaciones informales, en medios de comunicación e incluso en entornos educativos, aportando matices y profundidad al lenguaje, y siendo estos presentes en muchos de los textos que leemos.
Los refranes al ser expresiones breves que transmiten un consejo o lección moral de forma figurada están también profundamente arraigados con el contexto cultural y frecuentemente requieren un conocimiento implícito que va más allá del significado literal del enunciado. Por otro lado, en este mismo contexto existe la ausencia de corpus que incluyan tanto refranes como sus interpretaciones, dificultando su identificación y comprensión automatizada. Siendo la mayor parte de los recursos desarrollados inicialmente para el idioma inglés, mientras que en el idioma español se cuenta con pocos estudios específicos en este ámbito.
En este proyecto se plantea realizar un análisis comparativo de técnicas subsimbólicas para la identificación de refranes en textos en español, para ello se inicia con la creación de los diferentes corpus que se utilizan para el entrenamiento, validación y prueba de los enfoques desarrollados. Entre los enfoques que se describen en este proyecto se encuentran clasificadores tradicionales (regresión logística, random forest, support vector machine), implementación de redes convolucionales para la obtención de características profundas de los refranes, así como el uso de modelos pre entrenados como FLAN-T5 y finalizando con el uso de prompts con el modelo GPT-4o mini. Adicional a esto se desarrolla una aplicación web que sirve para experimentar con los diferentes enfoques desarrollados en este trabajo.
La evaluación de los diferentes enfoques se realiza empleando métricas clásicas de evaluación como el accuracy, la precisión y F1-Score, además de estas métricas se hace un análisis cualitativo de los errores cometidos por los diferentes enfoques para profundizar en las causas que llevan a un enfoque a equivocarse.
–ABSTRACT–
Figurative expressions, such as proverbs, are often challenging to comprehend for certain groups, including individuals with cognitive disabilities or non-native speakers with limited language proficiency. Proverbs are widely used in informal conversations, media, and even educational contexts, adding nuance and depth to language. However, these expressions, which convey advice or moral lessons in a figurative manner, are deeply rooted in cultural contexts and often require implicit knowledge beyond their literal meaning.
The lack of a comprehensive corpus containing both proverbs and their interpretations hinders the automated identification and understanding of these expressions, particularly in Spanish, where few studies address this issue. Most existing resources have been developed for the English language, leaving a significant gap in the Spanish-speaking world.
This thesis presents a comparative analysis of subsymbolic techniques for identifying proverbs in Spanish texts. It begins with the creation of various corpora for training, validation, and testing the proposed approaches. The methods explored include traditional classifiers (logistic regression, random forest, support vector machine), convolutional neural networks for extracting deep features, and the use of pre-trained models such as FLAN-T5. Additionally, a web application is developed to experiment with the different approaches implemented in this work.
The evaluation of these approaches is performed using standard metrics such as accuracy, precision, and F1-Score. Furthermore, a qualitative analysis of the errors made by each approach is conducted to explore the underlying causes of misclassification, providing deeper insights into the effectiveness of the proposed methods.
Los enunciados con sentido figurado, como los refranes son elementos de difícil comprensión por parte de ciertos colectivos (personas con discapacidad cognitiva, extranjeros con conocimientos limitados del idioma, entre otros). En la actualidad muchos de estos refranes son utilizados tanto en conversaciones informales, en medios de comunicación e incluso en entornos educativos, aportando matices y profundidad al lenguaje, y siendo estos presentes en muchos de los textos que leemos.
Los refranes al ser expresiones breves que transmiten un consejo o lección moral de forma figurada están también profundamente arraigados con el contexto cultural y frecuentemente requieren un conocimiento implícito que va más allá del significado literal del enunciado. Por otro lado, en este mismo contexto existe la ausencia de corpus que incluyan tanto refranes como sus interpretaciones, dificultando su identificación y comprensión automatizada. Siendo la mayor parte de los recursos desarrollados inicialmente para el idioma inglés, mientras que en el idioma español se cuenta con pocos estudios específicos en este ámbito.
En este proyecto se plantea realizar un análisis comparativo de técnicas subsimbólicas para la identificación de refranes en textos en español, para ello se inicia con la creación de los diferentes corpus que se utilizan para el entrenamiento, validación y prueba de los enfoques desarrollados. Entre los enfoques que se describen en este proyecto se encuentran clasificadores tradicionales (regresión logística, random forest, support vector machine), implementación de redes convolucionales para la obtención de características profundas de los refranes, así como el uso de modelos pre entrenados como FLAN-T5 y finalizando con el uso de prompts con el modelo GPT-4o mini. Adicional a esto se desarrolla una aplicación web que sirve para experimentar con los diferentes enfoques desarrollados en este trabajo.
La evaluación de los diferentes enfoques se realiza empleando métricas clásicas de evaluación como el accuracy, la precisión y F1-Score, además de estas métricas se hace un análisis cualitativo de los errores cometidos por los diferentes enfoques para profundizar en las causas que llevan a un enfoque a equivocarse.
–ABSTRACT–
Figurative expressions, such as proverbs, are often challenging to comprehend for certain groups, including individuals with cognitive disabilities or non-native speakers with limited language proficiency. Proverbs are widely used in informal conversations, media, and even educational contexts, adding nuance and depth to language. However, these expressions, which convey advice or moral lessons in a figurative manner, are deeply rooted in cultural contexts and often require implicit knowledge beyond their literal meaning.
The lack of a comprehensive corpus containing both proverbs and their interpretations hinders the automated identification and understanding of these expressions, particularly in Spanish, where few studies address this issue. Most existing resources have been developed for the English language, leaving a significant gap in the Spanish-speaking world.
This thesis presents a comparative analysis of subsymbolic techniques for identifying proverbs in Spanish texts. It begins with the creation of various corpora for training, validation, and testing the proposed approaches. The methods explored include traditional classifiers (logistic regression, random forest, support vector machine), convolutional neural networks for extracting deep features, and the use of pre-trained models such as FLAN-T5. Additionally, a web application is developed to experiment with the different approaches implemented in this work.
The evaluation of these approaches is performed using standard metrics such as accuracy, precision, and F1-Score. Furthermore, a qualitative analysis of the errors made by each approach is conducted to explore the underlying causes of misclassification, providing deeper insights into the effectiveness of the proposed methods. Read More


