Projet

ArchéoBot : Un compagnon intelligent et vérifié pour explorer l’archéologie et ses méthodes avec LangChain

À la suite d’un appel à projets pédagogiques numériques, l’équipe[1] portée par M. Vincenzo Capozzoli, MCF en archéologie numérique a proposé de mettre en place ArchéoBot, un agent conversationnel (chatbot) créé spécifiquement pour le domaine de l’archéologie, à destination des étudiants de l’École d’histoire de l’art et de l’archéologie (UFR03) de l’université Paris 1 Panthéon-Sorbonne. Basé sur le framework LangChain et utilisant les grands modèles de langage (LLM) actuels, Archéo-bot vise à renforcer l’enseignement de l’archéologie en offrant une expérience d’apprentissage interactive aux étudiants de l’UFR 03 grâce à son intégration à l’environnement numérique des cours (EPI).

[1] Les autres membres de l’équipe sont Guillaume Simiand (professeur agrégé affecté à l’IRJS, EDS), Alain Duplouy (MCF HDR à l’École d’histoire de l’art et d’archéologie de la Sorbonne) et enfin François Giligny (Professeur en archéologie et préhistoire, directeur de l’école doctorale Archéologie).

Archéo-bot est une évolution du projet « Le répétiteur automatique », mené à l’IED et mis en place de façon embryonnaire et en version test par Guillaume Simiand. Ce premier projet comprend un agent conversationnel qui interroge une base de données vectorielle, alimentée par le cours sur la méthodologie du droit de M. Simiand. En s’inspirant de ce répétiteur, Archéo-bot a été conçu en adaptant le concept à l’archéologie et, tout d’abord, à ses méthodes. Cependant, contrairement au répétiteur automatique, fondé sur le principe de questions/réponses à partir d’une base de connaissance, Archéo-bot permettra à terme des interactions conversationnelles fluides avec les étudiants, tout en exploitant les dernières avancées en matière de grands modèles de langage (LLM) grâce au framework LangChain.

Le framework LangChain

Le choix du framework LangChain pour le projet Archéo-bot s’est fondé sur plusieurs critères essentiels. Premièrement, LangChain offre une flexibilité logicielle remarquable, permettant une adaptation rapide et aisée du modèle de langage utilisé. Cette capacité à modifier le modèle en quelques lignes de code est indispensable pour une mise à jour efficace et personnalisée du système en fonction des besoins évolutifs des utilisateurs et du contenu pédagogique.

Deuxièmement, dans le contexte d’une adoption généralisée par les utilisateurs de l’université et en considération des coûts associés aux services d’OpenAI, la décision a été prise de privilégier, à long terme, l’emploi d’un modèle de langage open source. Cette orientation vers une solution libre favorisera l’accessibilité et la durabilité du projet Archéo-bot, tout en offrant une plus grande autonomie dans la gestion et l’évolution du système.

Enfin, Il est important de noter que LangChain, en tant que framework open source, est principalement axé sur la gestion des processus et des flux de traitement des données et il n'est pas hébergé sur des serveurs cloud distants, mais exécuté localement dans un environnement contrôlé par l'équipe du projet. Ainsi, la garantie que les données collectées ne seront pas réutilisées pour le réentraînement des modèles de langage provient actuellement de l'utilisation de l'API payante d'OpenAI. À l'avenir, cette assurance pourrait également être obtenue en utilisant un modèle de langage open source. Cette approche est essentielle pour assurer la protection et la confidentialité des ressources pédagogiques spécifiques à nos enseignants, tout en maintenant l'intégrité académique et la sécurité des données au sein de notre établissement universitaire.

Archéo-bot et les autres robots conversationnels

À côté de ce choix logiciel, ce qui différencie le projet Archéo-bot aux autres projets de robot conversationnel c’est le fait que sa base de connaissances sera constituée à la fois de :

  • Cours existants au format texte enrichi (supports de cours, documents),
  • Vidéos pédagogiques sous-titrées,
  • Ressources bibliographiques structurées (export Zotero)

Ces différents documents sources seront vectorisés et intégrés dans une base de données vectorielle interrogeable pour une extraction efficace des informations pertinentes par le chatbot. Des mécanismes de mise à jour de cette base sont prévus pour garantir la cohérence et l’intégration des dernières connaissances archéologiques.

Parmi ses innovations majeures, Archéo-bot vise à se distinguer par :

  • La réduction des hallucinations de l’IA. Le système est conçu pour minimiser les erreurs et les réponses inexactes, améliorant ainsi la fiabilité des interactions.
  • L'affichage des Sources. Chaque réponse fournie par Archéo-bot cite ses sources, assurant la transparence et la traçabilité des informations.
  • La flexibilité des Modèles de Langage. La possibilité de changer aisément entre différents modèles de langage permet une adaptabilité et une mise à jour continue du système.
  • L'intégration d’une bibliothèque Zotero. Toutes les références et sources sont systématiquement stockées dans une bibliothèque Zotero dédiée, rendant la gestion des ressources plus efficace.
Illustration du fonctionnement d'Archeobot
Illustration du fonctionnement d'Archeobot

Les différentes étapes de travail sur Archeobot

Le projet passera par plusieurs étapes clés :

Rédaction et Structuration des Cours

C'est l'étape au cours de laquelle il y a une transformation des cours existants et nouveaux en contenu exploitable par Archéo-bot, en mettant l’accent sur la clarté et l’organisation des concepts clés. Parmi les données qui seront exploitées, il y aura les vidéos déjà produites dans le cadre du MOOC Ancient Cities, mené par Alain Duplouy et déjà utilisées dans son cours de L1 Art et archéologie de l’Antiquité classique, mais aussi les vidéos produites au fur et à mesure par Vincenzo Capozzoli dans le cadre de ses enseignements de pratiques numériques en archéologie.

Vectorisation et Gestion des Données

Les cours sont convertis en vecteurs pour une représentation compacte et significative, facilitant les recommandations personnalisées et la recherche d’informations pertinentes. De plus, la vectorisation des textes pourrait permettre d’établir des similarités et des correspondances entre les différents cours, ce qui sera utile pour les recommandations personnalisées et la recherche d’informations connexes. La base de données de vecteurs permettra d’assurer la cohérence et la gestion efficace des données pédagogiques avec une intégration facile des mises à jour des cours. L’expérience d’apprentissage des étudiants sera ainsi plus riche et approfondie et les informations fournies à jour et précises.

Développement du Chatbot 

Il a été prévu une utilisation de modèles de langage avancés pour une interaction naturelle et précise, avec une attention particulière à la gestion des erreurs et à la prévention des hallucinations de l’IA. Pour garantir des interactions fluides et pertinentes, Archéo-bot s’appuiera sur des modèles de langage à la pointe de la technologie. Au lancement, le modèle GPT-4 d’OpenAI sera utilisé. Mais grâce au framework LangChain, d’autres grands modèles de langage supportés par Hugging Face pourront aussi être intégrés facilement. Quel que soit le modèle choisi, Archéo-bot sera conçu pour comprendre une grande variété de questions des étudiants et y répondre de manière contextualisée. Le chatbot cherchera également à approfondir les discussions, un peu comme le ferait un enseignant humain. Pour éviter la propagation d’informations erronées, des fonctionnalités avancées de détection d’erreurs et de vérification des réponses générées seront implémentées en continu. L’objectif est de minimiser les risques d’« hallucination » inhérents aux modèles d’intelligence artificielle.

Intégration et Accompagnement 

Archéo-bot sera directement intégré aux espaces numériques pédagogiques (EPI) utilisés par les étudiants dans le cadre de leurs cours. L’objectif est de rendre le chatbot disponible dans un environnement familier pour permettre des interactions naturelles. Les échanges avec le chatbot pourront nourrir les discussions en classe. Par exemple, certaines questions traitées sur l’EPI pourront être reprises pour approfondir ou clarifier certains concepts. L’intégration d’Archéo-bot vise donc à renforcer les interactions entre étudiants et enseignants, et non à s’y substituer. Le chatbot participe à l’enrichissement des méthodes pédagogiques sans déshumaniser la relation d’apprentissage.

présentation des différentes étapes du chatbot Archeobot

En conclusion, ce projet, fruit d’une collaboration entre les enseignants de l’UFR 03, des ingénieurs du SUN de Paris 1 et Guillaume Simiand de l’EDS-IRJS, vise à enrichir l’expérience éducative en archéologie. Il offrira une approche personnalisée, immersive et interactive, tout en garantissant la protection des ressources pédagogiques contre une utilisation tierce. Enfin, en associant technologie de pointe et pédagogie innovante, il promet d’enrichir la compréhension, de stimuler la curiosité, et de renforcer l’interaction entre étudiants et enseignants, tout en maîtrisant les risques inhérents à l’intelligence artificielle.