Projet RobotCodico
Les partenaires du projet
- Le laboratoire SAMM (Statistique, Analyse et Modelisation Multidisciplinaire),
- Le Laboratoire de Médiévistique occidental de Paris (Lamop (UMR 8589)),
- Le Pôle Informatique de Recherche et d'Enseignement en Histoire (PIREH).
Les objectifs généraux du projet
Le projet vise à développer des algorithmes d’analyse d’images numérisées de pages de manuscrits médiévaux. Ces manuscrits sont étudiés par les historiens pour leur texte, mais également en tant qu’objets. La codicologie est la discipline qui les considère de ce point de vue : l’analyse matérielle d’un manuscrit nous renseigne sur ses méthodes de production (papier, encre, technique d’assemblage de feuillets), sur leur valeur économique et symbolique (enluminures) et sur leur utilisation concrète (commentaires, schémas, présence de plusieurs écritures). Depuis la fin des années 1970 s’est développé le courant de la codicologie quantitative qui aborde ce genre de questions en travaillant sur de larges corpus de manuscrits à l’aide de méthodes statistiques.
Notre idée est d’exploiter les numérisations de manuscrits mises en ligne par les bibliothèques qui les conservent (et éventuellement des photographies que l’on peut prendre avec un appareil photo ou un smartphone) pour produire automatiquement un grand nombre d’indicateurs sur l’utilisation de la page. Cela permettra, grâce à ces données quantitatives, de dessiner une fresque de la production manuscrite au Moyen Âge en Europe occidentale, qu’il s’agisse de livres en latin ou en langue vernaculaire (anglais, français, italien, espagnol, allemand, etc.).
Selon les éléments (détaillés ci-dessous) que l’on veut repérer, dénombrer ou mesurer, il nous semble que l’on peut privilégier soit des algorithmes d’analyse d’image classique (travail que nous avons démarré pour délimiter les blocs de texte et identifier leur lignes), soit des algorithmes d’intelligence artificielle (ce pour quoi nous avons commencé à constituer un corpus d’images d’entraînement).
Des objectifs de détections
Exemple 1 : Détection de la mise en page
Exemple 2 : Page simple à deux colonnes, avec miniature, lettrines à l’encre rouge, initiales légèrement détachées du reste de la ligne, et beaucoup de bruit (tâches, déchirures, estampilles de la BnF, inscriptions d’anciennes cotes, etc.)