Validación de direcciones postales mediante Modelos de Lenguaje Grandes (Large Language Models, LLMs)

Bookmark (0)
Please login to bookmark Close

Resumen
La extracción automática de información estructurada a partir de direcciones postales no normalizadas constituye un desafío de gran relevancia en el Procesamiento del Lenguaje Natural, debido a la alta variabilidad, ruido y errores presentes en el texto. Este desafío se ve agravado por la escasez de corpus de entrenamiento públicos y la variabilidad de los formatos postales entre distintas regiones, lo que dificulta la creación de modelos generalizables. Para superar estas limitaciones, este trabajo aborda el problema mediante el desarrollo y la evaluación de un sistema basado en dos modelos de lenguaje, enfocados en la corrección y la estructuración automática de direcciones postales de la ciudad de Madrid.
Para la creación de un corpus sintético de 200.000 ejemplos, se aplicó una metodología que partió de datos del Catastro, enriquecidos posteriormente con información geoespacial del Ayuntamiento de Madrid. A continuación, se utilizó el modelo Gemma-2B para generar oraciones que simularan el lenguaje real, incluyendo errores controlados. Este corpus sirvió para el ajuste fino de dos modelos de tipo Transformer: por un lado, un modelo basado en RoBERTa (A Robustly Optimized BERT Pretraining Approach) para el Reconocimiento de Entidades Nombradas (NER), que permite estructurar la información mediante la categorización de palabras clave (como tipo de vía, nombres de calles, etc.); y, por otro lado, un modelo T5 (Text-to-Text Transfer Transformer) para la corrección de secuencias, cuyo objetivo es subsanar los posibles errores ortográficos en el texto.
Los resultados muestran un rendimiento dispar. El modelo NER alcanzó un alto rendimiento en los datos sintéticos (valor F1 > 0.99), validando la calidad del corpus generado. Sin embargo, su eficacia descendió a un 71% de valor F1 en datos reales no vistos, revelando limitaciones en su generalización. Por otro lado, el modelo de corrección fracasó en su objetivo, ya que, en lugar de aprender a corregir, desarrolló un sesgo de parafraseo y resumen, truncando las secuencias.
La principal conclusión de este estudio es que la generación de datos sintéticos es una estrategia muy potente para especializar modelos en dominios concretos, pero no sustituye la necesidad de datos reales para garantizar la robustez. Mientras que el éxito del modelo NER demuestra el potencial de este enfoque, el fracaso del modelo de corrección subraya cómo un diseño ambiguo en la generación de datos puede llevar al modelo a aprender atajos erróneos en lugar de la tarea deseada.
Abstract
The automatic extraction of structured information from non-standardized postal addresses is a significant challenge in Natural Language Processing, due to the high variability, noise, and errors present in the text. This challenge is compounded by the scarcity of public training corpora and the variability of postal formats across different regions, which complicates the creation of generalizable models. To overcome these limitations, this work addresses the problem by developing and evaluating a system based on two language models, focused on the correction and automatic structuring of postal addresses in the city of Madrid.
To create a synthetic corpus of 200,000 examples, a methodology was applied that started with data from the Cadastre, which was subsequently enriched with geospatial information from the Madrid City Council. Next, the Gemma-2B model was used to generate sentences that simulated real language, including controlled errors. This corpus was used for the fine-tuning of two Transformer-type models: on one hand, a RoBERTa-(A Robustly Optimized BERT Pretraining Approach) based model for Named Entity Recognition (NER), which allows for the structuring of information by categorizing keywords (such as street type, street names, etc.); and on the other hand, a T5 (Text-to-Text Transfer Transformer) model for sequence correction, aimed at rectifying potential spelling errors in the text.
The results show disparate performance. The NER model achieved high performance on synthetic data (valor F1 > 0.99), validating the quality of the generated corpus. However, its effectiveness dropped to a 71% valor F1 on unseen real-world data, revealing limitations in its generalization. Conversely, the correction model failed in its objective, as instead of learning to correct, it developed a paraphrasing and summarizing bias, truncating the sequences.
The main conclusion of this study is that the generation of synthetic data is a powerful strategy for specializing models in specific domains, but it does not replace the need for real data to ensure robustness. While the success of the NER model demonstrates the potential of this approach, the failure of the correction model underscores how an ambiguous design in data generation can lead the model to learn erroneous shortcuts instead of the desired task.

​Resumen
La extracción automática de información estructurada a partir de direcciones postales no normalizadas constituye un desafío de gran relevancia en el Procesamiento del Lenguaje Natural, debido a la alta variabilidad, ruido y errores presentes en el texto. Este desafío se ve agravado por la escasez de corpus de entrenamiento públicos y la variabilidad de los formatos postales entre distintas regiones, lo que dificulta la creación de modelos generalizables. Para superar estas limitaciones, este trabajo aborda el problema mediante el desarrollo y la evaluación de un sistema basado en dos modelos de lenguaje, enfocados en la corrección y la estructuración automática de direcciones postales de la ciudad de Madrid.
Para la creación de un corpus sintético de 200.000 ejemplos, se aplicó una metodología que partió de datos del Catastro, enriquecidos posteriormente con información geoespacial del Ayuntamiento de Madrid. A continuación, se utilizó el modelo Gemma-2B para generar oraciones que simularan el lenguaje real, incluyendo errores controlados. Este corpus sirvió para el ajuste fino de dos modelos de tipo Transformer: por un lado, un modelo basado en RoBERTa (A Robustly Optimized BERT Pretraining Approach) para el Reconocimiento de Entidades Nombradas (NER), que permite estructurar la información mediante la categorización de palabras clave (como tipo de vía, nombres de calles, etc.); y, por otro lado, un modelo T5 (Text-to-Text Transfer Transformer) para la corrección de secuencias, cuyo objetivo es subsanar los posibles errores ortográficos en el texto.
Los resultados muestran un rendimiento dispar. El modelo NER alcanzó un alto rendimiento en los datos sintéticos (valor F1 > 0.99), validando la calidad del corpus generado. Sin embargo, su eficacia descendió a un 71% de valor F1 en datos reales no vistos, revelando limitaciones en su generalización. Por otro lado, el modelo de corrección fracasó en su objetivo, ya que, en lugar de aprender a corregir, desarrolló un sesgo de parafraseo y resumen, truncando las secuencias.
La principal conclusión de este estudio es que la generación de datos sintéticos es una estrategia muy potente para especializar modelos en dominios concretos, pero no sustituye la necesidad de datos reales para garantizar la robustez. Mientras que el éxito del modelo NER demuestra el potencial de este enfoque, el fracaso del modelo de corrección subraya cómo un diseño ambiguo en la generación de datos puede llevar al modelo a aprender atajos erróneos en lugar de la tarea deseada.
Abstract
The automatic extraction of structured information from non-standardized postal addresses is a significant challenge in Natural Language Processing, due to the high variability, noise, and errors present in the text. This challenge is compounded by the scarcity of public training corpora and the variability of postal formats across different regions, which complicates the creation of generalizable models. To overcome these limitations, this work addresses the problem by developing and evaluating a system based on two language models, focused on the correction and automatic structuring of postal addresses in the city of Madrid.
To create a synthetic corpus of 200,000 examples, a methodology was applied that started with data from the Cadastre, which was subsequently enriched with geospatial information from the Madrid City Council. Next, the Gemma-2B model was used to generate sentences that simulated real language, including controlled errors. This corpus was used for the fine-tuning of two Transformer-type models: on one hand, a RoBERTa-(A Robustly Optimized BERT Pretraining Approach) based model for Named Entity Recognition (NER), which allows for the structuring of information by categorizing keywords (such as street type, street names, etc.); and on the other hand, a T5 (Text-to-Text Transfer Transformer) model for sequence correction, aimed at rectifying potential spelling errors in the text.
The results show disparate performance. The NER model achieved high performance on synthetic data (valor F1 > 0.99), validating the quality of the generated corpus. However, its effectiveness dropped to a 71% valor F1 on unseen real-world data, revealing limitations in its generalization. Conversely, the correction model failed in its objective, as instead of learning to correct, it developed a paraphrasing and summarizing bias, truncating the sequences.
The main conclusion of this study is that the generation of synthetic data is a powerful strategy for specializing models in specific domains, but it does not replace the need for real data to ensure robustness. While the success of the NER model demonstrates the potential of this approach, the failure of the correction model underscores how an ambiguous design in data generation can lead the model to learn erroneous shortcuts instead of the desired task. Read More