L’HTR des langues peu dotées dans les programmes de recherche et dans les établissements de conservation français

Pelliot chinois 3847

La reconnaissance optique des écritures manuscrites (HTR), étape préalable à toute entreprise d’analyse ou de fouille de texte, pose des défis spécifiques pour les graphies non latines. Organisée en partenariat avec le consortium HumaNum DISTAM, et avec le soutien de The Mellon Foundation, cette journée d’étude permettra de faire le point sur les projets de recherche en cours et sur la place de l’HTR dans les établissements français conservant des manuscrits.

La reconnaissance optique des écritures manuscrites (handwritten text recognition  - HTR), étape préalable à toute entreprise d’analyse ou de fouille de texte, pose des défis spécifiques pour les graphies non latines (arabe, arménienne, chinoise, hébraïque, etc.). Depuis quelques années, différents projets d’HTR ont ainsi été lancés ou menés à bien notamment dans le cadre du programme CollEx Persée, de projets soutenus par l’Agence nationale de la recherche (ANR), des travaux du DataLab de la BnF ou de projets de coopération numérique que l’établissement mène à l’international.

La plupart parviennent à des taux de reconnaissance supérieurs à 90%, mais avec une marge de progression qui semble limitée en l’état actuel des technologies employées, et un défi qui est celui de la correction des textes extraits.

La journée d’étude se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées en matière d’HTR. Il s’agira de s’interroger sur les capacités de progression des outils utilisés, sur ce que recouvrent exactement les taux de reconnaissance obtenus, sur les perspectives que cette mise à disposition massive d’extractions de textes manuscrits ouvre pour la recherche en termes de lecture distante et de traitement automatique de la langue ainsi que sur la normalisation des modèles et la publication des modèles et des données d’entrainement. On examinera enfin la place de l’HTR dans les programmes des établissements de conservation français, ainsi que l’intégration des extractions obtenues dans les bibliothèques numériques.

Programme

9 h - 9 h 15 – Ouverture

  • Tiphaine Vacqué (BnF)
  • Mercedes Volait (DISTAM)

9 h 15 - 10 h 15 – L’HTR des textes en chinois classique

  • Marie Bizais-Lilig (université de Strasbourg) : Chi-Know-Po Corpus - La poésie dans l’économie des savoirs lettrés en Chine médiévale
  • Frédéric Constant (université de Nice) et Colin Brisson (EPHE - Centre de recherche sur les civilisations de l’Asie orientale) : COREL – Reconstitution de la législation de la Chine impériale tardive à partir de différents corpus

Présentation de Marie Bizais-LiligPrésentation de Frédéric Constant et de Colin Brisson10h15 - 10h45 – L’HTR des textes en hébreu médiéval

  • Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +) : MiDRASH, Migrations of Textual and Scribal Traditions via Large-Scale Computational Analysis of Medieval Manuscripts in Hebrew Script

10 h 45 - 11 h – Pause-café

11 h - 12 h 30 – L’HTR des textes en arabe maghrébin et oriental

  • Noëmie Lucas (université d’Edimbourg) : Rasam - A Dataset for the Recognition and Analysis of Scripts in Arabic Maghrebi
  • Antoine Perrier (CNRS-Iremam et Centre Jacques Berque) : Tarima - Écrire l’histoire au Maghreb aux périodes modernes et contemporaines
  • Eric Vallet et Clarck Junior Membourou Moimecheme (université de Strasbourg) : HUNAI - Humanités numériques pour l’étude de l’arabe islamique

Présentation de Noëmie Lucas

Présentation d’Antoine Perrier

Présentation d’Eric Vallet et de Clarck Junior Membourou Moimecheme

12 h 30 - 13 h 30 – Déjeuner

13 h 30 - 14 h 30 – Table ronde 1 : Capacités de progression des outils utilisés, signification et implication des taux de reconnaissance obtenus

Modératrice : Mercedes Volait (CNRS-INHA, InVisu)

Participants :

  • Peter Stokes (EPHE et Equipex Biblissima +)
  • Chahan Vidal-Gorène (Calfa et École des Chartes)
  • Anaïs Wion (Institut des Mondes Africains, CNRS)

Présentation d’Anaïs Wion

14 h 30 - 15 h 30 – Table ronde 2 : Normalisation et publication des modèles, publication des données d’entrainement

Modératrice : Marie Bizais-Lilig (université de Strasbourg)

Participants :

  • Alix Chagué  et Thibault Clérice (équipe ALMAnaCH, Inria, projet HTR United)
  • Anne-Valérie Schweyer (CNRS-EHESS, Centre Asie du Sud-Est) et Jean-Christophe Burie (Laboratoire L3i, université de La Rochelle) (ANR ChamDoc)
  • Daniel Stoekl ben Ezra (EPHE et Equipex Biblissima +)

Présentation d’Anne-Valérie Schweyer et de Jean-Christophe Burie15 h 30 - 15 h 45 – Pause-café

15 h 45 - 16 h 45 – L’avenir de la collaboration entre les chercheurs et les établissements de conservation autour de l’HRT 

Echanges de clôture entre les intervenants et le public

Voir cet événement

Partie 1

Partie 2

 

Informations pratiques

tarifs et conditions d’accès

Entrée gratuite dans la limite des places disponibles

 

Événement également accessible à distance
Lien de connexion
ID de réunion : 999 5777 3387
Code secret : 299951

Date et Horaires

Mercredi 14 février 2024
9 h – 17 h

Accès

Richelieu - Salle des conférences
5, rue Vivienne – 75002 Paris