Aumento de datos basado en recursos lingüísticos para RAG sobre textos legales en español

Bookmark (0)
Please login to bookmark Close

Este trabajo aborda el desarrollo y evaluación de un sistema basado en el paradigma Retrieval-Augmented Generation (RAG) aplicado al ámbito jurídico en español. El dominio jurídico es un campo altamente especializado, caracterizado por un lenguaje técnico y una documentación compleja, cuya accesibilidad pública es limitada. Además, en el contexto del español, se ha avanzado relativamente poco en la automatización de tareas legales en comparación con otros idiomas como el inglés. Este escenario subraya la necesidad de explorar soluciones tecnológicas que puedan facilitar el acceso y procesamiento de información en este ámbito. Utilizando modelos de lenguaje como Mistral, Llama3.2 y Granite3-dense, junto con modelos de embeddings como PlanTL-GOB-ES/RoBERTalex y PlanTL-GOBES/roberta-base-bne, se implementó un sistema capaz de generar respuestas relevantes y contextualizadas a partir de documentos legales. La investigación también exploró la incorporación de una técnica de expansión de consultas mediante sinónimos y términos relacionados, evaluando su impacto en la calidad de las respuestas generadas. Para ello, se analizaron los resultados mediante métricas estándar como ROUGE, F1-Score, SAS y BERTScore. Los resultados muestran que el uso de RAG mejora significativamente la calidad de las respuestas generadas, destacando el modelo Mistral como el más eficaz en la mayoría de las métricas. Sin embargo, la técnica de expansión de consultas no presentó mejoras significativas debido a las limitaciones del dataset de sinónimos empleado. En conclusión, este trabajo demuestra la viabilidad y efectividad del uso de RAG en el ámbito jurídico, al tiempo que identifica áreas clave para futuras investigaciones, como la ampliación de los datasets utilizados y la implementación de técnicas adicionales de pre y post procesamiento.
ABSTRACT
This work focuses on the development and evaluation of a system based on the Retrieval-Augmented Generation (RAG) paradigm, applied to the legal domain in Spanish. The legal field is highly specialized, characterized by technical language and complex documentation, often with limited public accessibility. Moreover, advancements in automating legal tasks in Spanish remain relatively scarce compared to other languages, such as English. This highlights the need for technological solutions to improve access to and processing of legal information. The system was implemented using language models such as Mistral, Llama3.2, and Granite3-dense, alongside embedding models like PlanTL-GOB-ES/RoBERTalex and PlanTL-GOB-ES/roberta-base-bne. It is designed to generate relevant and contextualized responses from legal documents. Additionally, the research explored the integration of query expansion techniques using synonyms and related terms, analyzing their impact on the quality of generated responses. Standard metrics such as ROUGE, F1-Score, SAS, and BERTScore were employed to evaluate system performance. The results demonstrate that RAG significantly enhances response quality, with the Mistral model outperforming others in most metrics. However, query expansion techniques did not yield significant improvements, largely due to limitations in the synonym dataset used. In conclusion, this study demonstrates the viability and effectiveness of employing RAG in the legal domain while identifying key areas for future research, such as expanding datasets and incorporating additional pre and post-processing techniques.

​Este trabajo aborda el desarrollo y evaluación de un sistema basado en el paradigma Retrieval-Augmented Generation (RAG) aplicado al ámbito jurídico en español. El dominio jurídico es un campo altamente especializado, caracterizado por un lenguaje técnico y una documentación compleja, cuya accesibilidad pública es limitada. Además, en el contexto del español, se ha avanzado relativamente poco en la automatización de tareas legales en comparación con otros idiomas como el inglés. Este escenario subraya la necesidad de explorar soluciones tecnológicas que puedan facilitar el acceso y procesamiento de información en este ámbito. Utilizando modelos de lenguaje como Mistral, Llama3.2 y Granite3-dense, junto con modelos de embeddings como PlanTL-GOB-ES/RoBERTalex y PlanTL-GOBES/roberta-base-bne, se implementó un sistema capaz de generar respuestas relevantes y contextualizadas a partir de documentos legales. La investigación también exploró la incorporación de una técnica de expansión de consultas mediante sinónimos y términos relacionados, evaluando su impacto en la calidad de las respuestas generadas. Para ello, se analizaron los resultados mediante métricas estándar como ROUGE, F1-Score, SAS y BERTScore. Los resultados muestran que el uso de RAG mejora significativamente la calidad de las respuestas generadas, destacando el modelo Mistral como el más eficaz en la mayoría de las métricas. Sin embargo, la técnica de expansión de consultas no presentó mejoras significativas debido a las limitaciones del dataset de sinónimos empleado. En conclusión, este trabajo demuestra la viabilidad y efectividad del uso de RAG en el ámbito jurídico, al tiempo que identifica áreas clave para futuras investigaciones, como la ampliación de los datasets utilizados y la implementación de técnicas adicionales de pre y post procesamiento.
ABSTRACT
This work focuses on the development and evaluation of a system based on the Retrieval-Augmented Generation (RAG) paradigm, applied to the legal domain in Spanish. The legal field is highly specialized, characterized by technical language and complex documentation, often with limited public accessibility. Moreover, advancements in automating legal tasks in Spanish remain relatively scarce compared to other languages, such as English. This highlights the need for technological solutions to improve access to and processing of legal information. The system was implemented using language models such as Mistral, Llama3.2, and Granite3-dense, alongside embedding models like PlanTL-GOB-ES/RoBERTalex and PlanTL-GOB-ES/roberta-base-bne. It is designed to generate relevant and contextualized responses from legal documents. Additionally, the research explored the integration of query expansion techniques using synonyms and related terms, analyzing their impact on the quality of generated responses. Standard metrics such as ROUGE, F1-Score, SAS, and BERTScore were employed to evaluate system performance. The results demonstrate that RAG significantly enhances response quality, with the Mistral model outperforming others in most metrics. However, query expansion techniques did not yield significant improvements, largely due to limitations in the synonym dataset used. In conclusion, this study demonstrates the viability and effectiveness of employing RAG in the legal domain while identifying key areas for future research, such as expanding datasets and incorporating additional pre and post-processing techniques. Read More