Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs

Bookmark (0)
Please login to bookmark Close

Presentamos un conjunto de datos para evaluar si los LLMs distinguen y usan correctamente las variedades del español. El recurso contiene 30 preguntas de opción múltiple cuidadosamente curadas por tres expertas/os en lingüística, que cubren variación léxica y morfosintáctica en siete macro-variedades: andina, antillana, chilena, caribeña continental, mexicana y centroamericana, peninsular europea y rioplatense. Todas las variedades responden a las mismas preguntas, variando únicamente las instrucciones de rol y el conjunto de opciones correctas, lo que permite comparaciones justas y la detección del sesgo dialectal por defecto de un modelo. El material fue revisado por pares, refinado iterativamente y probado en diversos LLMs para verificar comprensión y capacidad de discriminar rasgos dialectales. El dataset es útil para evaluación automática (LLMs) y humana (docencia, conciencia dialectal, sociolingüística). Está disponible en Zenodo (DOI: 10.5281/zenodo.15101403) y se relaciona con el estudio “It’s the same but not the same: Do LLMs distinguish Spanish varieties?”. Este recurso contribuye a evaluaciones más inclusivas y equitativas del español en PLN.

​Presentamos un conjunto de datos para evaluar si los LLMs distinguen y usan correctamente las variedades del español. El recurso contiene 30 preguntas de opción múltiple cuidadosamente curadas por tres expertas/os en lingüística, que cubren variación léxica y morfosintáctica en siete macro-variedades: andina, antillana, chilena, caribeña continental, mexicana y centroamericana, peninsular europea y rioplatense. Todas las variedades responden a las mismas preguntas, variando únicamente las instrucciones de rol y el conjunto de opciones correctas, lo que permite comparaciones justas y la detección del sesgo dialectal por defecto de un modelo. El material fue revisado por pares, refinado iterativamente y probado en diversos LLMs para verificar comprensión y capacidad de discriminar rasgos dialectales. El dataset es útil para evaluación automática (LLMs) y humana (docencia, conciencia dialectal, sociolingüística). Está disponible en Zenodo (DOI: 10.5281/zenodo.15101403) y se relaciona con el estudio “It’s the same but not the same: Do LLMs distinguish Spanish varieties?”. Este recurso contribuye a evaluaciones más inclusivas y equitativas del español en PLN. Read More