Entretien avec Julie Claustre-Mayade sur le projet e-NDP - Notre-Dame de Paris et son cloître

Portrait de Julie Claustre Mayade
Texte

La documentation textuelle, un projet de recherche inédit dans le cadre du chantier scientifique de Notre-Dame de Paris

Julie Claustre Mayade, maîtresse de conférence en Histoire, civilisation, archéologie et art des mondes anciens et médiévaux, porte le projet e-NDP "Notre-Dame de Paris et son cloître" qui engage pour la période mars 2021-août 2024 l’examen des registres de décisions du chapitre Notre-Dame de Paris des années 1326-1504, ainsi que des livres de ce chapitre et des chanoines au Moyen Âge et aux siècles modernes. Dédié à l’édition massive de corpus écrits, il vise à renouveler la connaissance de la société, de l’économie, du bâti du cloître parisien et de ses dépendances.

Nous avons rencontré Julie Claustre Mayade pour qu’elle nous explique ce projet et ses liens avec l’intelligence artificielle.

Présentation du projet e-NDP

Julie Claustre Mayade : Retenu et financé par l’Agence nationale de la recherche (ANR) en septembre 2020, à la suite de l’incendie de Notre-Dame de Paris au printemps 2019, le consortium du programme e-NDP réunit deux laboratoires comptant des spécialistes de l’histoire de Paris, du livre, de l’édition textuelle et des humanités numériques : le LaMOP et le Centre Jean Mabillon de l’École nationale des chartes, et les trois grandes institutions patrimoniales conservant des fonds archivistiques et livresques de NDP : Archives Nationales, Bibliothèque nationale de France et Bibliothèque Mazarine.

Conservateurs et chercheurs sont rassemblés dans e-NDP afin de mettre à la disposition des chercheurs et du public des ressources fondamentales pour la connaissance de Notre-Dame et de faire progresser le savoir historique sur le chapitre et le cloître. Le soutien de l’ANR permet de financer des opérations coûteuses (numérisations, restaurations) et des contrats d’embauche. Ce programme a officiellement démarré le 1er mars 2021 et s’étend sur 42 mois, jusqu’en août 2024.

Dans l’environnement de recherche qui s’est formé après l’incendie de Notre-Dame, le projet e-NDP est le seul qui porte sur la documentation textuelle liée à l’histoire de la cathédrale. Alors que les autres sont plutôt centrés sur le bâtiment – restes matériels tels que les pierres, les vitraux, les bois de la charpente – et son architecture, le projet e-NDP recadre l’intérêt autour du quartier de la cathédrale et donc de la seigneurie du chapitre de Notre-Dame de Paris, en même temps qu’il propose de mettre à disposition d'autres projets des informations permettant d’expliquer des éléments du bâti de la cathédrale.

Le projet e-NDP porte sur les ressources archivistiques d’une institution pluriséculaire, le chapitre de Notre-Dame

Julie Claustre Mayade : La communauté du chapitre qui entourait l'évêque de Paris était constituée de 51 chanoines. Ils se réunissaient trois fois par semaine pour prendre des décisions collectives relatives à la gestion des droits du chapitre, à l’administration de la cathédrale, de son patrimoine et de la société du cloître Notre-Dame. Le chapitre était une puissance ecclésiastique à l'échelle de Paris, du royaume et plus largement de la chrétienté qui rayonnait sur des milliers d’hommes et de femmes. Ainsi, l’assistance hospitalière assurée par l’Hôtel-Dieu, plus important hôpital du royaume, était placée sous la tutelle du chapitre. Par ailleurs, le chancelier du chapitre de Notre-Dame était le chancelier de l’Université et un grand nombre de chanoines ont eu une activité universitaire. Le chapitre de Notre-Dame a également bénéficié jusqu’à la Révolution d’une exemption juridique et fiscale totale par rapport à la Ville et au roi. C’est donc une institution puissante au cœur de Paris que les registres de décisions du chapitre sont à même de permettre de découvrir.

Le recours à l’IA facilite l’analyse d’un corpus massif

Julie Claustre Mayade : La difficulté rencontrée concernant l’analyse du corpus de registres de décisions du chapitre de Notre-Dame est qu’il est massif et n’est donc pas abordable par un chercheur isolé, malgré sa grande richesse. Et jusqu’à aujourd’hui il était exploité à l’aide de copies d’extraits modernes, lacunaires, réalisées par des archivistes du chapitre. Or numériser pour rendre accessible, éditer, la documentation originale est susceptible d’améliorer très nettement nos connaissances, en favorisant, aussi, les interactions interdisciplinaires. Ainsi, les membres du projet sont en liens étroits avec les archéologues et historiens de l’art qui travaillent sur le chantier de restauration de la cathédrale afin d’essayer de mettre en place des procédures d'information mutuelle. Ces derniers n'avaient pas développé de projets spécifiques sur la documentation et ils se reposaient sur la bibliographie existante ou bien sous-traitaient des recherches ponctuelles en archives. Avec le projet E-NDP, l’étude de la documentation devient systémique, puisqu’il s'agit de transcrire de manière automatisée des sources manuscrites en latin (handwriting text recognition ou HTR) pour pouvoir ensuite les interroger de façon systématique.

Les registres de décisions capitulaires ont été ouverts en 1326. La série, conservée aux Archives nationales, est dense jusqu'à la Révolution puisqu'elle comporte 170 registres. Deux corpus sont utilisés pour le projet e-NDP : d’une part, les 26 registres d’époque médiévale couvrant les années 1326-1504 ce qui représente environ 14 700 pages de décisions et d’autre part, d’autre part les livres qui composaient la bibliothèque du chapitre. La vie du chapitre est renseignée dans ces registres dont les décisions économiques et juridiques sont décisives et pléthoriques et pour lesquelles on n’a pas d’entrée, ni de moyens simples pour aller chercher des informations. Par exemple, les chanoines peuvent décider le même jour du sort d’une cloche de la cathédrale comme du sort des moulins dans un village dépendant du chapitre. Nous avons prévu de transcrire automatiquement et intégralement les 26 registres médiévaux, d’éditer proprement 3 de ces registres et un post-doctorant a été recruté durant 14 mois pour le volet d’édition d’un catalogue de la bibliothèque ancienne du chapitre.

L’IA, un outil présent depuis plusieurs années dans la recherche médiévale

Julie Claustre Mayade : Avant de débuter le projet, je n’avais aucune compétence en intelligence artificielle. Toutefois, j’en avais entendu parler en 2015 au cours d’un colloque. J’ai voulu faire des essais sur une IA de HTR mise en place par un laboratoire autrichien produisant la solution Transkribus qui est devenue par la suite payante. Au début, il était possible de réaliser des tests sur l’acquisition d’un texte avec une photographie numérique d’un document. Avec l’aide Pierre Brochard, ingénieur d’études au LaMOP, j’ai fait des essais par un étudiant de Master, aujourd’hui doctorant dans l’équipe e-NDP, Hugo Regazzi. C’était une potentialité qui commençait à être connue dans la communauté des médiévistes.  

On a discuté avec l’École nationale des chartes et plus particulièrement le centre Jean Mabillon parce qu’ils ont un service qui s’intéresse de près à l’HTR. L’École nationale des chartes a noué un partenariat avec l’Institut national de recherche en sciences et technologies du numérique (INRIA) et a été créée une infrastructure commune de transcription automatique pour plein de projets d’écritures manuscrites très diverses. Cette infrastructure s’appelle eScriptorium, une plateforme libre alternative à Transkribus dans laquelle les groupes de chercheurs peuvent trouver des environnements de travail.

Le protocole mis en place consiste en un processus d’amélioration des performances de lectures avec l’IA

Julie Claustre Mayade : L’analyse automatisée des registres de décisions du chapitre et partant le déploiement de l’IA est mise en place par un post-doctorant recruté pour deux ans, Sergio Torrès. L’IA fonctionne à partir de modèles de textes et d’images auxquels elle a été formée et elle propose une transcription. On a débuté un premier modèle d’apprentissage par l’IA et l’équipe de transcripteurs a commencé à participer à l'entraînement de l’IA depuis le mois d’octobre au travers d’ateliers collectifs.

Concrètement, Sergio Torrès a mis au point un algorithme à partir de données déjà existantes de l’École des Chartes et de l’Institut de recherche et d'histoire des textes (IRHT). Il y avait aussi une cinquantaine de pages du corpus du chapitre que l’on avait fait transcrire en 2020-2021. Cela nous a permis d’avoir une base de textes avec des écritures de la même époque. On a fait des brouillons sur des échantillons du corpus, puis on a procédé à une session de corrections de ces premiers brouillons. Une fois les pages corrigées, on a nourri l’algorithme avec celles-ci et relancé le processus.

Les premiers résultats sont encourageants concernant l’handwriting text recognition

Julie Claustre Mayade : On est encore en phase d'entraînement de l'algorithme de handwriting text recognition. Trois entraînements ont été réalisés entre novembre 2021 et janvier 2022 et les performances de reconnaissance des textes progressent. Le saut a été impressionnant à la première correction. Nous avons également obtenu un taux de reconnaissance supérieur à 88% et on ambitionne d’atteindre très bientôt les 90%.

On s’attend à un moment de stagnation des performances de l’IA qui butera irrémédiablement sur des obstacles tels que les problèmes d'hétérogénéité des manuscrits ou encore l’état des manuscrits et la qualité de leurs numérisations. Par ailleurs, les impressions sont diverses selon les registres. C’est la raison pour laquelle nous avons spécialisé les transcripteurs par registres. On s’est rendu compte que l’IA a tendance à moins performer sur certaines écritures et sur certains registres. Il demeure  une grande hétérogénéité. Ainsi, on peut être satisfait de la reconnaissance de texte sur un registre, mais il existe des registres sur lesquels il y a encore beaucoup d’erreurs. Mais ce qui est satisfaisant, c’est que l'algorithme de handwriting text recognition facilite la lecture humaine. Certes, actuellement, l'œil humain corrige l’IA, mais on gagne déjà du temps car il arrive que l’IA résolve des difficultés de lecture qui auraient beaucoup ralenti l'œil humain. Dans le cadre de notre projet, la plus-value de l’IA repose avant tout sur une augmentation des capacités de lecture.

Des post-traitements sont envisagés pour réaliser des recherches thématiques

Julie Claustre Mayade : Pour la suite du projet, il nous reste une masse textuelle très abondante encore à l’état de brouillon. Pour autant, il y a des post-traitements envisagés étant donné que l’on compte parvenir à l’automatisation de la reconnaissance des entités nommées en particulier les lieux et les personnes. Cela permettra par exemple de savoir ce qu’a dit tel ou tel chanoine et quelle est son action concrète. Notre postdoctorant en charge de l’HTR, Sergio Torres, a beaucoup travaillé dans le cadre de son doctorat pour effectuer des recherches thématiques dans des données textuelles massives (topic modeling). Nous espérons que ce travail sera exploité par tous les autres projets liés à Notre-Dame, à caractère plus archéologique et architectural afin de restaurer au mieux Notre-Dame de Paris.

De mon point de vue, l'algorithme de handwriting texte recognition pousse l’humain à réfléchir et progresser dans l’acte de paléographie. Puisque l’IA fait gagner du temps dans la transcription, on peut se focaliser sur d’autres étapes de la recherche historique. Grâce au topic modeling, se posent également davantage de questions, voire des questions non posées auparavant. Par exemple, quand est-ce que le roi ou le pape envoie ses représentants au chapitre ? On passe dès lors de la vie quotidienne de la cathédrale à la géopolitique. Cela permet d’étudier la cathédrale sous un autre angle, d’étudier son insertion dans la ville et plus largement dans l’espace de la chrétienté. On peut entrevoir une nouvelle cathédrale : Notre-Dame de Paris comme on ne l’a encore jamais vue !

Chercheurs du LaMOP impliqués dans le projet :

  • Bernardi Philippe, Directeur de recherche d'UMR LAMOP : Laboratoire de médiévistique occidentale de Paris (UMR 8589)
  • Brochard Pierre, Ingénieur d'étude / CNRS
  • De Chalus Olivier, doctorant
  • Claustre Julie, Maîtresse de conférences en Histoire, civilisation, archéologie et art des mondes anciens et médiévaux et coordinatrice et porteuse du projet E-NDP 
  • Cottereau-Gabillet Emilie, Maîtresse de conférences en Histoire, civilisation, archéologie et art des mondes anciens et médiévaux  
  • Delivré Fabrice, Maître de conférences en Histoire, civilisation, archéologie et art des mondes anciens et médiévaux 
  • Kouamé Thierry, Maître de conférences en Histoire, civilisation, archéologie et art des mondes anciens et médiévaux 
  • Lamassé Stéphane, Maître de conférences en Histoire, civilisation, archéologie et art des mondes anciens et médiévaux 
  • Lusset Élisabeth, chargée de recherche 
  • Morsel Joseph, Professeur des universités (Histoire, civilisation, archéologie et art des mondes anciens et médiévaux
  • Noizet Hélène, Maîtresse de conférences en Histoire, civilisation, archéologie et art des mondes anciens et médiévaux  
  • Perreaux Nicolas, ingénieur de recherche 
  • Regazzi Hugo, doctorant recruté sur le projet
  • Smith Darwin, Chercheur associé et deuxième coordinateur du projet e-NDP