Un outil de recherche d’expertise basé sur l’intelligence artificielle à l’université Paris 1 Panthéon-Sorbonne
Dans le cadre des travaux de son atelier “cartographie de la recherche”, l’université Paris 1 Panthéon-Sorbonne a récemment mis en ligne un outil de recherche d’expertise utilisant l’intelligence artificielle. Il s’agit d’un développement original réalisé en interne par l’université, issu d’une collaboration entre la Direction de la recherche et de la valorisation (DIREVAL), le Service commun de la documentation (SCD) et la Direction des systèmes d’information et des usages du numérique (DSIUN). L'outil a été intégré à un nouveau site web dédié à la recherche. Il utilise l'approche moderne de la recherche d’informations - la recherche sémantique, considérablement favorisée par l’essor des grands modèles de langage, qu'il met au service d’un objectif majeur des systèmes d’information universitaires : la découvrabilité de la recherche. Il témoigne en même temps de l’intérêt qui se fait jour, au sein de la communauté de la recherche en sciences humaines et sociales, envers le potentiel des grands modèles de langage (LLM).
Une illustration du potentiel des grands modèles de langage pour les sciences humaines et sociales
Si les usages génératifs des grands modèles de langage ont occupé, ces derniers temps, le devant de la scène, parce que plus spectaculaires, ils ne seront pas forcément les seuls pertinents pour les sciences humaines et sociales. Les représentations du langage que ces modèles construisent en interne – et qui servent de base à la génération probabiliste des énoncés, sont également extrêmement fécondes. Car, une fois les textes projetés dans des espaces sémantiques de grande dimension, c’est toute la boîte à outils de l’algèbre linéaire, de l’analyse de données et de la data visualization qui peut être déployée.
L’outil de recherche d’expertise de Paris 1 Panthéon-Sorbonne met en œuvre l’une des plus simples de ces techniques : le calcul des distances. Les métadonnées textuelles (titre, description) des publications des unités de recherche dont notre université est tutelle ont été converties en vecteurs de grande dimension (par plongement lexical ou “embedding”) et stockées dans une base de données vectorielle. Il n’y a plus, dès lors, qu’à appliquer le même traitement aux énoncés saisis par les internautes, et à rechercher les publications abordant des sujets proches (la proximité étant entendue ici au sens de la “distance cosinus”, c’est-à-dire l’angle formé par les vecteurs sémantiques). L'identification des chercheurs spécialistes du sujet découle de celle des publications.
Un nouveau paradigme pour la recherche d’information
En termes de valeur ajoutée utilisateur, les gains sont sensibles. Selon l’état de l’art antérieur de la recherche d’information, un tel projet aurait été mené à l’aide d’un moteur de recherche, auquel on aurait fait indexer les métadonnées. Un algorithme tel que “Term Frequency - Inverse Document Frequency” (TF-IDF), éventuellement combiné à un système de facetting par mots-clés, aurait permis de classer les résultats et de sélectionner les auteurs. Grâce au sentence embedding généré par l’IA, on peut désormais dépasser les limites de cette approche : les algorithmes peuvent opérer directement au niveau sémantique et non sur des comparaisons et des comptages de chaînes de caractères, si sophistiqués soient-ils. L’utilisateur n’a de ce fait pas besoin de maîtriser le vocabulaire savant mobilisé par les chercheurs, ni de tester sa requête en différentes langues. Le système n’est pas non plus tributaire d’une indexation manuelle par mots-clés, de qualité toujours imprévisible, notamment sur une plateforme comme HAL. La frontière entre le texte comme donnée “qualitative” et l’univers des données “quantitatives”, plus propices aux traitements automatisés, se trouve en grande partie abolie.
Par rapport aux premières techniques de plongement lexical d’il y a dix ans telles que Glove et Word2Vec, les modèles de langage basés sur les transformers ont en outre élevé le niveau de granularité des embeddings à la phrase, voire au paragraphe. C’est le sens global de l’énoncé soumis par l’utilisateur qui fait l’objet de la requête, et non celui de chacun des mots ou expressions isolés. La recherche sémantique creuse encore l’écart avec la recherche syntaxique.
Deux modèles pour un outil
L’outil de recherche d’expertise de Paris 1 Panthéon-Sorbonne laisse l’utilisateur choisir entre deux modèles : l’un, paraphrase-multilingual-mpnet-base-v2, est l’un des modèles basés sur l’architecture “SentenceBert” : des réseaux BERT dits “siamois”, issus des travaux de Nils Reimers et Iryna Gurevych, qui ont fait évoluer l’architecture originelle de Google BERT pour permettre les rapprochements sémantiques au niveau d’énoncés entier (1). Au moment de l’implémentation du projet, en janvier 2023, paraphrase-multilingual-mpnet-base-v2 était considéré, parmi les modèles libres, comme le modèle état de l’art pour la recherche sémantique multilingue. L’autre modèle proposé aux utilisateurs, text-embedding-ada-002, est un nouveau modèle dérivé des GPT-x d’OpenAI, lancé fin 2022 et présenté comme cette société comme à la fois plus performant et meilleur marché que les précédents pour la recherche sémantique (2).
Ces deux modèles partagent l’architecture des transformers, mais se distinguent par ailleurs sur bien des points : le premier est libre et gratuit, tandis que le second est propriétaire et commercial. Le premier est à une échelle de seulement quelques dizaines de millions de paramètres alors que le second est en dizaines de milliards. La troisième divergence découle des deux premières : alors que paraphrase-multilingual-mpnet-base-v2 est auto-hébergé sur les serveurs de l’université, text-embedding-ada-002 n’est accessible, à l’instar des autres moteurs de GPT-3, que par le biais de l’API OpenAI.
Les premiers retours d’utilisateurs sur l’outil de recherche d’expertise montrent que les rapprochements effectués par GPT-3 sont considérés, globalement, comme plus pertinents que ceux de SentenceBert. Dès lors, y a-t-il encore un sens à déployer des modèles machine learning sur sa propre infrastructure, avec à la clé de complexes problématiques de gestion de charge ? GPT sonne-t-il le glas de l’IA “maison” ? C’est l’argumentaire des sociétés telles qu’OpenAI qui incitent les projets à exploiter les modèles en mode “Saas” (software as a service). Une solution certes tentante mais qui, à terme, risque de soulever des difficultés, notamment, s’agissant d’une société basée hors UE, sur un plan juridique (RGPD). À l’heure où des alternatives émergent, notamment en France (LightOn), mieux vaut peut-être éviter toute option trop définitive et concevoir des applications pouvant aisément basculer d’un modèle de langage à l’autre à l’autre via les pratiques dites de “couplage lâche inter-applicatif". Les startups qui consomment de longue date les services d’OpenAI en arrivent souvent à combiner des réseaux de neurones entraînés et hébergés localement avec le recours à GPT-3, parfois même utilisé pour générer les données d’entraînement. Non seulement elles réduisent ainsi leur facture mais évitent la perte de savoir-faire et la dépendance qui en découlerait.
Un POC pour stimuler la réflexion...
L’implémentation proposée par l’université Paris 1 Panthéon-Sorbonne est à voir comme un “POC” (proof of concept) dont les limitations mêmes sont des incitations à prolonger la réflexion et l’expérimentation dans différentes directions.
...vers un modèle plus “intelligent” ?
Ainsi, il n’a pas échappé à beaucoup d’utilisateurs que lorsque l’énoncé soumis comporte des références implicites, qui nécessitent une certaine culture du domaine, ou contient un vocabulaire qui revêt un sens particulier dans le contexte des SHS, voire des néologismes, l'IA est souvent prise en défaut. Par exemple, sollicitée sur la “reproduction du capital culturel”, expression typique d’une école de pensée sociologique, l'application renvoie certes des résultats pertinents (“L'internationalisation des stratégies de reproduction des classes dominantes“) mais aussi des travaux relatifs au “patrimoine culturel immatériel” ou à la “politique culturelle en France”. Ce comportement relativement décevant découle du fait que les relations de proximité sémantiques inférées par le modèle sont basées sur une représentation du langage qui n’est pas issue d’un entraînement spécifique sur un corpus de sciences sociales, mais sur un corpus généraliste d’une taille gigantesque où des mots comme “capital” ou “genre” sont loin d’avoir toujours la même acception et le même voisinage que dans les usages propres aux SHS. Pour pallier ces limitations, il serait intéressant d’opérer le “fine tuning” d’un grand modèle de langage sur des travaux de sciences sociales. Sans nier qu’il y ait là un objectif d’un grand intérêt, il ne faut pas en sous-estimer la difficulté, car, outre que cette opération requerrait une puissance de calcul conséquente, encore faudrait-il être capable de réunir un corpus d’une taille suffisante, donnant une place à chaque discipline, à chaque courant de pensée, à chaque période, et de surcroît multilingue.
...vers des données plus variées ?
L’outil de recherche d’expertise déployé par Paris 1 Panthéon-Sorbonne gagnerait aussi à élargir et diversifier ses sources de données. Il n’exploite, à ce stade, que les métadonnées des publications HAL, qui présentent l’avantage d’être immédiatement disponibles, homogènes et, à défaut d’être exhaustives, de couvrir une grande partie de la production scientifique de l’université. Or, à mesure que l’université consolidera plus d’informations au sein de son “système d’information recherche”, ce sont aussi les textes de présentation des chercheurs, les descriptifs de projets, les interventions dans les médias, les sujets de thèse voire les enseignements qui pourront être mobilisés. Loin de s’opposer, l’utilisation de l’intelligence artificielle et la construction de bases de données structurées ou “graphes de connaissances” peuvent se renforcer l’une l’autre. Quant à l’exploitation des textes intégraux des articles, elle se heurte plutôt à des limitations de ressources, à la fois techniques, pour l’hébergement des données et les performances de l’application, et budgétaires : la facturation d'OpenAI est proportionnelle aux quantités de texte soumises.
...vers des interactions innovantes ?
Ce POC peut ouvrir des pistes d’interactions nouvelles, en optimisant l’IHM (interface homme machine), en proposant d’autres modes de visualisation des données qui favoriseraient l’exploration de l’espace de la recherche en SHS, dans l’esprit des propositions disruptives de Dario Rodighiero (3). De récents travaux se sont intéressés aux représentations diachroniques, en proposant, là encore via le recours à l’IA, des modes de visualisation synthétiques des tendances de la recherche (4).
Et pourquoi pas, puisque c’est la mode, une interaction de type “conversationnelle” ? Il ne manquerait à l’outil, en son état actuel, qu’une dose de “prompt engineering” pour se convertir en chat, au prix, toutefois, d’une augmentation considérable de la redevance versée à Open AI.
Ce ne sont là que quelques-unes des perspectives ouvertes par cette expérimentation. Ils feront l'objet de discussions au sein de l’atelier “cartographie de la recherche” qui poursuit ses travaux à l’Université Paris 1 Panthéon-Sorbonne, avec l’ambition de mettre données et technologies au service de la valorisation de la recherche.
Pour l'équipe projet, Joachim Dornbusch.
***
Vous pouvez accéder à Recherche d'expertise assistée par l'intelligence artificielle ici.
(1) N. Reimers, and I. Gurevych, “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Association for Computational Linguistics, 2019, https://arxiv.org/abs/1908.10084.
(2) Pour en savoir plus : https://openai.com/blog/new-and-improved-embedding-model.
(3) Rodighiero Dario, “Mapping Affinities: Democratizing Data Visualization”, Métis Presses, 2021, https://dariorodighiero.com/Mapping-Affinities-Cartographie-des-affinites.
(4) V. not : Vahidnia, Sahand, Alireza Abbasi and Hussein A. Abbass, “Document Clustering and Labeling for Research Trend Extraction and Evolution Mapping”, EEKE@JCDL, 2020.