Transcription automatique et segmentation thématique de livres d’heures manuscrits - Nantes Université Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2019

Handwritten text recognition and text segmentation adapted to manuscript books of hours

Transcription automatique et segmentation thématique de livres d’heures manuscrits

Résumé

Books of Hours are the number one best seller of the Middle Ages, with more than 10 000 copies preserved. They are a crucial witness to the medieval mindset, but their textual contents have been very scarcely studied. They are very long and offer a complex hierarchical entangled structure, with several characteristics specific to medieval daily Prières office. This paper presents the methods and processing applied to books of hours: handwritten text recognition and text segmentation adapted to medieval manuscripts. We propose a weak supervised approach, based on the overarching structure of the manuscripts, that provides the first state-of-the-art results on transcript texts and despite remaining errors for this new challenging task.
Les livres d’heures sont le plus grand best-seller de tout le Moyen Âge, avec plus de 10 000 témoins conservés. Incontournables pour comprendre l’univers mental médiéval, leurs textes ont été très peu étudiés. Ils sont très longs et ont une structure complexe correspondant à l’organisation liturgique médiévale et la prière quotidienne de l’office. Cet article décrit les méthodes et les traitements automatiques mis en oeuvre sur les livres d’heures : la reconnaissance de l’écriture manuscrite et la segmentation adaptées à ces manuscrits. L’approche de segmentation semi-supervisée proposée tire profit de la constitution spécifique du manuscrit pour mieux retrouver leur structure malgré le bruit engendré par la reconnaissance de l’écriture.
Fichier non déposé

Dates et versions

hal-02430291 , version 1 (07-01-2020)

Identifiants

  • HAL Id : hal-02430291 , version 1

Citer

Béatrice Daille, Amir Hazem, Christopher Kermorvant, Martin Maarand, Marie-Laurence Bonhomme, et al.. Transcription automatique et segmentation thématique de livres d’heures manuscrits. Revue TAL : traitement automatique des langues, 2019, TAL et humanités numériques, 60 (3), pp.13-36. ⟨hal-02430291⟩
215 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More