Los libros parroquiales constituyen una de las principales fuentes documentales para reconstruir la historia familiar y demográfica en regiones donde no existía un registro civil centralizado antes del siglo XX. Estos documentos manuscritos, habitualmente conservados únicamente en soporte físico, son extremadamente vulnerables al deterioro, pérdida o destrucción, especialmente en territorios afectados por conflictos como Ucrania. Este Proyecto de Fin de Grado presenta MetrykaHTR, un modelo entrenado para la transcripción automática de manuscritos parroquiales redactados en latín, basado en técnicas modernas de reconocimiento de texto manuscrito (HTR). El proyecto incluye la creación de un conjunto de datos segmentado y transcrito manualmente, a partir de imágenes digitalizadas de libros parroquiales ucranianos del siglo XVIII. El modelo ha sido entrenado utilizando Kraken, un motor HTR de código abierto basado en aprendizaje profundo. Gracias a una estrategia de entrenamiento iterativo y una anotación exhaustiva, MetrykaHTR alcanza una alta precisión de transcripción en documentos no vistos, con una tasa de error de caracteres (CER) del 90,92 %. El modelo final ha sido publicado como recurso abierto, contribuyendo así a la investigación histórica, genealógica y archivística, y demostrando el valor práctico del software libre en la preservación y accesibilidad del patrimonio documental.
Abstract:
Parish registers are one of the most valuable sources for reconstructing family and demographic histories in regions where civil registration was not established until the 20th century. These handwritten documents, usually preserved only in physical form, are highly vulnerable to deterioration, loss, or destruction, particularly in historically conflict-aaected territories such as Ukraine. This Diploma Project presents MetrykaHTR, a trained model for the automated transcription of Latin parish manuscripts using modern handwritten text recognition (HTR) techniques. The project includes the creation of a manually transcribed and segmented dataset based on digitalized images of 18th-century Ukrainian parish registers. The model is trained using Kraken, a deep learning-based Open-Source HTR engine. Through an iterative training strategy and extensive annotation, MetrykaHTR achieves high transcription accuracy on unseen documents, with a Character Error Rate (CER) of 90.92 %. The trained model is publicly released to support historical, genealogical, and archival research, and demonstrates the practical value of Open-Source tools for the preservation and accessibility of documentary heritage.
Los libros parroquiales constituyen una de las principales fuentes documentales para reconstruir la historia familiar y demográfica en regiones donde no existía un registro civil centralizado antes del siglo XX. Estos documentos manuscritos, habitualmente conservados únicamente en soporte físico, son extremadamente vulnerables al deterioro, pérdida o destrucción, especialmente en territorios afectados por conflictos como Ucrania. Este Proyecto de Fin de Grado presenta MetrykaHTR, un modelo entrenado para la transcripción automática de manuscritos parroquiales redactados en latín, basado en técnicas modernas de reconocimiento de texto manuscrito (HTR). El proyecto incluye la creación de un conjunto de datos segmentado y transcrito manualmente, a partir de imágenes digitalizadas de libros parroquiales ucranianos del siglo XVIII. El modelo ha sido entrenado utilizando Kraken, un motor HTR de código abierto basado en aprendizaje profundo. Gracias a una estrategia de entrenamiento iterativo y una anotación exhaustiva, MetrykaHTR alcanza una alta precisión de transcripción en documentos no vistos, con una tasa de error de caracteres (CER) del 90,92 %. El modelo final ha sido publicado como recurso abierto, contribuyendo así a la investigación histórica, genealógica y archivística, y demostrando el valor práctico del software libre en la preservación y accesibilidad del patrimonio documental.
Abstract:
Parish registers are one of the most valuable sources for reconstructing family and demographic histories in regions where civil registration was not established until the 20th century. These handwritten documents, usually preserved only in physical form, are highly vulnerable to deterioration, loss, or destruction, particularly in historically conflict-aaected territories such as Ukraine. This Diploma Project presents MetrykaHTR, a trained model for the automated transcription of Latin parish manuscripts using modern handwritten text recognition (HTR) techniques. The project includes the creation of a manually transcribed and segmented dataset based on digitalized images of 18th-century Ukrainian parish registers. The model is trained using Kraken, a deep learning-based Open-Source HTR engine. Through an iterative training strategy and extensive annotation, MetrykaHTR achieves high transcription accuracy on unseen documents, with a Character Error Rate (CER) of 90.92 %. The trained model is publicly released to support historical, genealogical, and archival research, and demonstrates the practical value of Open-Source tools for the preservation and accessibility of documentary heritage. Read More



