Entretien avec Marie Cottrell : Les mathématiques, l'IA et la recherche transdisciplinaire
Marie Cottrell est Professeure émérite de Mathématiques, dans le domaine des Mathématiques appliquées, Statistiques, Réseaux de neurones. Elle est Doctor Honoris Causa en mathématiques de l'Université de La Havane (Cuba) et Honorary Doctor de l’Université d’Aalto (Finlande).
Elle a été élève de l’ENS Sèvres et a commencé sa carrière comme professeure de lycée. Elle a ensuite occupé un poste d’assistante, de maître-assistante, puis maîtresse de conférences à l’Université de Paris et de Paris-Sud. Elle est professeure des universités à l’université Paris 1 Panthéon-Sorbonne depuis 1989. De 1970 à 1973, elle a été détachée comme professeure à l’Université de La Havane. Elle a été directrice du laboratoire SAMOS, puis SAMM de 1991 à 2012 et directrice du M2 TIDE de 1997 à 2010.
Pourriez-vous nous présenter votre parcours et votre intérêt pour les mathématiques appliquées?
J’ai commencé par un parcours typique des mathématiques françaises des années 60, c’est-à-dire des mathématiques dites pures. À l’époque, en classes préparatoires, on n’enseignait ni probabilités ni statistiques et même pas d’analyse numérique. C’était vraiment ce qu’on appelle maintenant des mathématiques pures. En sortant de Normale Sup, j’ai été professeure de lycée et j’ai obtenu un D.E.A. (M2 actuellement) de logique. En 1967, j’ai été recrutée comme assistante à l’université de Paris et ensuite j’ai obtenu une mutation pour l’Université Paris-Sud. Ensuite, je suis partie enseigner à l’université de La Havane à Cuba et là j’ai découvert que les collègues étaient déjà très impliqués dans les mathématiques appliquées. L’informatique de l’époque n’était pas très développée, mais ça existait quand même, c’était dans les années 70. J’ai compris l’intérêt d’utiliser les mathématiques pour toutes sortes d’applications à des problèmes réels, au service de différentes études, différents projets, etc. Et je me suis intéressée aux mathématiques appliquées et à l’informatique, même si c’était très loin de ce qu’on appelle maintenant informatique.
En revenant de Cuba en 1973, j’ai repris un poste au lycée pendant un an, changé d’orientation en mathématiques et commencé à suivre à Jussieu des cours de probabilités, de statistiques et d’informatique. Ces disciplines ont vraiment été une découverte pour moi parce qu’en France à l’époque, on était encore très « Bourbakistes », tournés vers la théorie, l’axiomatique et le développement des théories les plus exhaustives possibles. Au bout d’un an, je suis retournée à Paris-Sud sur un poste d’assistante puis de maître-assistante à l’université. Et là je me suis lancée directement en statistiques, j’ai obtenu un D.E.A. de statistiques tout en faisant des travaux dirigés de statistiques. Donc cela a accéléré ma formation.
Et Aalto University ?
Je ne suis pas allée à Aalto University. Pas tout de suite, ce sera plus tard. Il y a eu tout un cheminement avec Aalto. Pendant que j’étais à Orsay (Université Paris Sud), certains chercheurs du labo étaient très intéressés par tout ce qui était modélisation des systèmes biologiques réels, en particulier du système visuel. C’était très étudié dans les années 80-85. Et par l’intermédiaire de ce groupe de travail qui se penchait vraiment sur la modélisation du système neuronal réel, biologique et en particulier visuel, j’ai participé à des congrès, des collectifs de recherche, etc. Et j’ai lu des articles sur l’algorithme d’auto-organisation qui avait été défini par Teuvo Kohonen.
C’était au départ un algorithme de modélisation du système sensoriel, qui est également un système neuronal biologique réel. Et ces chercheurs essayaient de « mettre en équation » le fonctionnement des systèmes neurologiques réels, partant de l’idée qu’un système neuronal réel est composé de neurones qui sont reliés les uns aux autres par des synapses. Il y avait énormément de questions sur lesquelles se concentrer : quel fonctionnement cela pouvait-il avoir ? Quel était l’état d’équilibre ? Vers quoi tendaient ces systèmes neuronaux réels ? Comment modéliser en particulier l’apprentissage visuel ou l’apprentissage sensoriel dans les tout premiers jours de la vie ?
Et donc, on avait des contacts avec des biologistes pour qu’ils nous expliquent le fonctionnement des réseaux réels, comme ils pouvaient le connaître avec leurs instruments de mesure de l’époque. Depuis, ces instruments ont tellement évolué que des choses qu’ils ne voyaient pas, maintenant, ils peuvent les voir. Mais déjà à l’époque, on avait cette idée qu’il y avait un grand nombre de neurones reliés les uns aux autres et que cela devait pouvoir se modéliser mathématiquement par des unités reliées par des connexions, ce qu’on appelle maintenant des réseaux de neurones. Et donc le passage constant entre le neurone réel et le neurone artificiel a produit énormément de travaux et on était vraiment dans cette mouvance dans les années 80-85. Et là, j’ai donc rencontré à de nombreuses reprises le professeur Teuvo Kohonen, chercheur finlandais, professeur de l’université qui s’appelle maintenant Aalto, décédé malheureusement en 2021. On a énormément travaillé en collectif à Orsay, puis ensuite plus particulièrement avec Jean-Claude Fort, sur les propriétés de l’algorithme de Kohonen.
Petit à petit, on s’est un peu éloigné de la modélisation des neurones réels, des réseaux de neurones biologiques, pour aller vers la modélisation et l’étude mathématiques d’un algorithme qui modélise le processus. Teuvo Kohonen travaillait à l’époque à Espoo, dans la banlieue d’Helsinki, qui maintenant s’appelle l’université d’Aalto. On a eu beaucoup de contacts avec lui, ses collègues et élèves, au cours de conférences scientifiques et à distance. En 2012, les Finlandais m’ont proposé d’être Honorary Doctor de l’Université d’Aalto.
Parlez-nous des débuts de vos travaux sur l’intelligence artificielle dans les années 1980.
Rentrée de mon séjour à Cuba en 1973, j’ai de nouveau été professeure de lycée pendant un an et ensuite, j’ai appris les probabilités et les statistiques, je les ai enseignées en même temps. Dans les années 80 à peu près sont arrivés à Orsay deux enseignants, Gabriel Ruget et Robert Azencott, qui avaient ce goût pour la modélisation et qui ont animé un groupe de travail et un séminaire sur ces questions-là. Et donc, dans les années 85 à peu près, j’ai commencé avec différents collègues à travailler sur les réseaux de neurones, au départ avec une vision biologique, mais avec l’idée de les mathématiser, c’est-à-dire de les écrire en forme d’équations et d’essayer d’avoir des résultats rigoureux sur le comportement de ces réseaux. J’ai aussi travaillé pendant cinq-six ans avec un biologiste Jean-Pierre Rospars, qui étudiait plus précisément un réseau réel qui est le cervelet. On a écrit un certain nombre de publications ensemble et c’était passionnant parce qu’il essayait toujours de se rapprocher de la réalité biologique et nous, on essayait toujours de simplifier. Et donc il était désespéré parce qu’il trouvait qu’on allait trop dans la simplification. On lui expliquait que l’on ne pouvait pas modéliser dans le détail molécule par molécule comme il essayait de le faire. Et on a réalisé un certain nombre de travaux ensemble entre les années 85-90.
C’est ainsi que je me suis intéressée à ce qu’on appelait les perceptrons multicouches, les réseaux de neurones artificiels et les cartes de Kohonen.
Justement, pourriez-vous nous expliquer vos principaux travaux sur l’intelligence artificielle, les cartes de Kohonen et les réseaux de neurones ?
À l’époque, l’intelligence artificielle n’était pas le mot clé de tout ça. Quand on fait une introduction historique pour des étudiants ou dans un séminaire, on fait remonter une partie de ces travaux aux années 40-50 où le mot intelligence artificielle était prononcé. Les chercheurs se posaient beaucoup de questions sur l’intelligence naturelle et essayaient de la modéliser et de construire une machine, un algorithme, quelque chose qui pourrait imiter l’intelligence humaine. Et donc le mot intelligence artificielle était là en complément, en opposition, à l’intelligence humaine.
On ne parlait pas d’IA et c’était un domaine qui avait un peu montré ses limites. À l’époque, en essayant d’écrire les raisonnements logiques sous forme de règles et de calculs symboliques, on arrivait vite aux limites. Donc quand je me suis mise à travailler avec des collègues sur les réseaux de neurones artificiels ou biologiques, on n’utilisait pas vraiment ce terme-là, c’était plutôt un terme historique. (Ça me gêne beaucoup de dire « je » parce que j’ai toujours travaillé avec des collègues, que ce soit à Orsay, ici à Paris 1 ou ailleurs…) On a essayé de faire le lien entre ce que faisaient certains collègues (ingénieurs, informaticiens, physiciens ou biologistes) et les mathématiques. On a essayé de mathématiser cela, c’est-à-dire de donner des définitions précises et puis d’établir des ponts entre toutes ces notions et les statistiques de base. Il y avait tout un langage qui se développait dans la communauté des réseaux de neurones qu’on s’efforçait de « traduire » : on rapprochait la notion d’apprentissage de la notion d’estimation. Et ce que les spécialistes des réseaux de neurones appelaient poids synaptiques, on les définissait comme paramètres du modèle. Donc ce pont entre les mathématiques et les statistiques et le domaine très varié et très multidisciplinaire des réseaux de neurones, on y a beaucoup travaillé. On a vraiment fourni un effort d’enseignement et de mathématisation de tout cela. Par exemple, on a étudié des propriétés théoriques des perceptrons multicouches de l’époque. On se demandait si ces algorithmes convergeaient, c’est-à-dire s’ils se stabilisaient au bout d’un temps assez long. Est-ce que ces algorithmes qui sont non linéaires pouvaient être utilisés comme prédicteurs, c’est-à-dire pouvaient être utilisés dans le domaine des séries temporelles, qui sont souvent étudiées à l’aide de modèles linéaires ?
Pour les cartes de Kohonen, du point de vue mathématique, il s’agit d’une extension d’un algorithme connu depuis longtemps, qui s’appelle « l’algorithme des K-moyennes » ou algorithme des centres mobiles. C’est un algorithme qui date du tout début du XXᵉ siècle, voire même de la fin du XIXᵉ. L’algorithme de Kohonen se développait d’un côté dans un certain milieu scientifique proche de l’informatique et de l’autre côté les statisticiens disaient que ça ressemblait beaucoup à quelque chose de connu depuis longtemps. On a beaucoup travaillé pour établir des ponts entre les différentes disciplines. On nous a par exemple demandé de faire des cours dans des projets européens où notre rôle était celui des mathématiciens qui essayaient d’éclaircir mathématiquement les notions et définitions. Et puis surtout de faire comprendre aux statisticiens ce qu’ils pouvaient trouver de neuf dans les modèles neuronaux et vice versa envers les chercheurs en réseaux de neurones. Sur l’algorithme de Kohonen proprement dit, c’est le domaine dans lequel j’ai le plus travaillé (avec Jean-Claude Fort, Patrick Letrémy à Paris 1, Michel Verleysen à Louvain, Eric de Bodt à Lille). Kohonen lui-même n’était pas mathématicien, il avait des intuitions absolument formidables et il avait de très beaux résultats pratiques, mais il était toujours un peu frustré de ne pas savoir exactement pourquoi ça marchait. Et donc il était très content que certains mathématiciens essayent de montrer les propriétés théoriques de son algorithme. La contrepartie étant que quand on a démontré que certaines propriétés qu’il avait énoncées n’étaient pas tout à fait correctes, il était très vexé, très fâché. Mais comme on a beaucoup travaillé ensemble, on s’est beaucoup fréquenté, il n’était pas si fâché que ça. Il y avait toujours des difficultés de compréhension entre nos domaines qui n’étaient pas exactement les mêmes. Pour lui par exemple, un algorithme qui convergeait neuf fois sur dix était un algorithme qui convergeait. Or, pour nous, dans ce cas, on ne peut pas conclure que l’algorithme converge. Même si dans la pratique, quand on va faire les simulations et le mettre sous forme d’un code informatique, l’algorithme va très bien marcher, on ne peut pas vraiment conclure qu’il converge. Et on a eu de grandes discussions là-dessus, mais c’était passionnant de voir ces liens entre les mathématiques au sens vraiment rigoureux, les théorèmes, etc., et les propriétés pratiques de ces algorithmes-là.
Vous avez beaucoup travaillé avec les SHS, cela a-t-il apporté quelque chose à votre laboratoire et à vos recherches ?
Les collaborations avec les biologistes dont je vous ai parlé ont été surtout actives quand j’étais en poste à Orsay (Paris-Sud). Et en 1989, quand je suis arrivée comme professeure à Paris 1, il n’y avait ni biologiste, ni physicien, ni ingénieur. Les collaborations en cours ont continué, mais c’était plus difficile de les poursuivre. Pour trouver de nouveaux sujets, j’ai travaillé avec un collègue économiste, Patrice Gaubert. Avec Patrick Letrémy également, on a développé les algorithmes étudiés, on les a mis en pratique et puis appliqués aux données d’économie. C’était comme une boîte à outils supplémentaire en plus des statistiques classiques que nos collègues utilisaient tout le temps et depuis très longtemps déjà. La caractéristique principale de cette nouvelle série d’outils était le fait que ce sont des modèles non linéaires, qui sont donc plus complexes et permettent de mieux coller aux données.
À côté de l’économie, Paris 1 ayant beaucoup de SHS, on a travaillé aussi avec les géographes, en particulier avec Lena Sanders. C’était très intéressant de croiser nos méthodes. Le premier travail de recherche qu’on a réalisé avec elle portait sur la démographie dans la vallée du Rhône : l’étude de toutes les communes de la vallée, celles qui étaient en croissance démographique, celles qui étaient en décroissance, etc. C’était un premier travail.
Puis on a eu des contacts avec les historiens. Au début, c’était un contact pédagogique avec un collègue, Pierre Saly, à la retraite actuellement. En histoire, il y a toujours eu un cours de statistiques basique pour les étudiants de licence. Pierre Saly avait rédigé un manuel « Méthodes statistiques descriptives pour les historiens » (2 éditions) avec une grande expérience pédagogique. J’ai lu et relu son manuel pour discuter de quelques points avec lui. Cela a été le point d’introduction avec les autres collègues en histoire, surtout avec Stéphane Lamassé qui a une grande curiosité, une grande connaissance des méthodes de statistiques, et était intéressé à utiliser des outils un peu plus compliqués, un peu plus modernes et récents.
Travailler ensemble était d’un grand intérêt parce que c’était passionnant d’apprendre un tout petit peu l’histoire en même temps qu’on travaillait sur nos modèles. C’était le sujet lui-même, le contexte historique que Stéphane nous expliquait. Cela a ouvert un plus grand champ d’application à mon laboratoire. Mais travailler ensemble était aussi très chronophage parce qu’il fallait prendre le temps de comprendre les problèmes. Nous étions trois ou quatre à travailler avec des collègues historiens. On ne peut pas venir avec une boîte à outils et dire qu’il n’y a que ça et c’est tout. Il y a le contexte et l’interprétation d’abord, puis la nature des données est très importante : elles ne sont pas canoniques. Il y a des données quantitatives, des données qualitatives, et des trous dans les données. En histoire, les données ne sont pas aussi lisses que les enquêtes de l’INSEE où on a les données tous les ans et où on peut à la limite jeter des données incomplètes et il en reste encore beaucoup. En histoire, on ne peut pas inventer les données : quand il n’y en a pas, il n’y en a pas.
Je me souviens des travaux de Madalina Olteanu et de Julien Alerini pour lesquels les données étaient pleines de trous puisqu’il s’agissait de comptabiliser les documents administratifs publiés en Savoie. C’étaient des données où il y avait des mois avec zéro donnée et d’autres mois avec beaucoup de documents d’un seul coup. Cela a permis à Madalina de mettre au point une nouvelle méthode sur le traitement des données quand il y a plein de zéros. Ce sont des données avec des valeurs numériques, mais qui peuvent être entrecoupées de plusieurs données à valeur zéro. On s’aperçoit que si on traite ces données comme des données ordinaires, il va y avoir de très mauvais résultats. Madalina a mis au point une méthode pour les données ayant plein de zéros. On a aussi mis au point des méthodes de traitement simultané des données qualitatives et quantitatives qui ont des caractéristiques différentes les unes des autres. On a donc fait des progrès en théorie dans la définition des algorithmes pour pouvoir les traiter. En statistique classique, on pense immédiatement aux données de l’INSEE, aux données des banques, etc., mais les données historiques peuvent avoir des caractéristiques très différentes.
Comment le sujet de l’intelligence a-t-il évolué depuis les années 1980 et en particulier concernant les réseaux de neurones artificiels et les spécificités des méthodes neuronales ?
Ça me gêne un peu de parler d’intelligence artificielle parce que pour moi, l’intelligence artificielle telle qu’on en parle tous les matins, c’est vraiment un abus de langage, un raccourci pour dire les choses vite fait.
Dans les travaux sur les perceptrons en particulier (années 1980-2010), on avait tous une limitation formidable qui était que les algorithmes qui étaient mis au point à l’époque marchaient très bien, mais étaient très lents. Quand il y avait beaucoup de données, on n’était jamais sûr d’être arrivé à l’équilibre. On ne savait jamais si on avait fini. Pour les perceptrons multicouches, ce qu’on appelait réseaux de neurones artificiels, il arrivait que des chercheurs lancent l’exécution d’un programme, puis qu’au bout d’une semaine ils constatent que ce n’était pas encore complètement stabilisé et donc ne savaient pas à quel moment s’arrêter. Évidemment, il y avait beaucoup de travaux pour proposer des astuces et des façons de savoir quand on pouvait s’arrêter. Mais c’était extrêmement lent et quand il y avait vraiment beaucoup de données, ça coinçait. Parce qu’à l’époque et jusque dans les années 2005-2010, le stockage informatique et la vitesse des processeurs n’étaient pas suffisants malgré les efforts pour paralléliser, pour utiliser le stockage par morceaux, etc. Et ce qui a complètement décoincé les choses et qui a donné lieu au deep learning et puis à la remontée en flèche de l’intelligence artificielle, c’est l’évolution de la vitesse de calcul et de la capacité de stockage. Parallèlement, dans la vraie vie, les données qu’on peut être amené à traiter sont devenues massives, multipliées par milliers, par millions même. Donc, je pense que c’est ça fondamentalement qui a changé la donne parce que, sur le fond, les idées, les intérêts, les tâches que les gens essayent de résoudre n’ont pas vraiment changé. Simplement, c’est l’échelle qui a énormément changé. Avec ce changement d’échelle, il y a des choses qui paraissent toutes plus accessibles qu’avant. Et ayant à peu près résolu les problèmes basiques, il est apparu beaucoup d’autres questions théoriques qui sont très étudiées maintenant.
Par exemple, ce qu’on appelle la sparsité. Avant, si vous aviez 25 variables, vous gardiez toutes ces variables. Vous vous disiez que vous alliez garder toute l’information, sauf si vous aviez vraiment de manière évidente une chose qui ne servait à rien. Par exemple, dans les données de l’INSEE, on était habitué à enlever un certain nombre de variables puisqu’on avait souvent à la fois le nombre d’hommes, le nombre de femmes et le nombre total. On se disait que ce n’est pas la peine de garder tous ces nombres et on enlevait une des trois variables puisqu’elle était évidemment fonction des deux autres. Mais on essayait de garder toute l’information. À partir du moment où on a des données qui ont des milliers de descripteurs, ça n’a pas de sens de garder tout ça. L’interprétation va être très difficile. On ne va pas pouvoir bien décrire ce qu’on obtient. Donc on essaye de faire des modèles sparses, c’est-à-dire de supprimer les descripteurs dont on pense qu’ils ne sont pas très significatifs pour la description des données, et donc les chercheurs développent des algorithmes qui essayent de supprimer des variables, mais pas au hasard, seulement celles qui ne sont pas très significatives. Ça donne lieu à des recherches très importantes.
Une autre chose aussi, c’est qu’avant en statistiques classiques et aussi en réseaux de neurones, on considérait souvent qu’il y avait une stabilité dans le temps des données observées. On supposait que le modèle sous-jacent restait le même. Même si on constatait une évolution temporelle, on la modélisait par des équations valables d’un bout à l’autre. Mais dans la réalité, il y a ce qu’on appelle des ruptures. Et donc la recherche sur ces points de rupture, c’est aussi très important. Le cas le plus simple, c’est lorsque vous avez une seule variable temporelle et que vous essayez de trouver où il y a eu un changement, c’est-à-dire une rupture. Ce qui est le plus compliqué, qui est aussi un sujet de recherche très important actuellement, c’est lorsque vous avez 100 variables simultanément et que vous cherchez des ruptures dans l’ensemble des 100 variables. Un collègue, Alain Célisse, qui est au SAMM, travaille sur les ruptures multidimensionnelles en collaboration avec Madalina Olteanu, qui était maîtresse de conférences à Paris 1 et qui est maintenant, depuis l’année dernière, professeure à Dauphine.
J’ai du mal à vous dire ce qui a vraiment changé. C’est une évolution technologique (construction des différents ordinateurs, des serveurs, des processeurs…) et ayant résolu un certain nombre de problèmes de base, les chercheurs cherchent à résoudre des problèmes plus compliqués, qu’ils ne pouvaient traiter avant, avec cette possibilité nouvelle de calcul beaucoup plus massif.
Mais nous ne restons pas seulement dans le domaine de la recherche fondamentale, nous avons aussi une partie application. Au SAMM, sur la base de cet ensemble de méthodes, d’algorithmes et de savoir-faire, on a une collaboration avec Safran depuis 2008 avec les ingénieurs qui étudient la fiabilité des moteurs d’avion, ce qui est quand même assez utile dans la vraie vie ! C’est un service de Safran qui cherche à aider les experts à pronostiquer les pannes AVANT qu’elles n’aient lieu afin de les éviter. C’est ce qu’on appelle le « health monitoring » : on essaye de contrôler la santé du moteur. On travaille régulièrement sous forme de post-doc ou de bourse CIFRE avec les ingénieurs de Safran. En réalité, le savoir-faire qu’on peut appeler intelligence artificielle, mais que nous, on va appeler méthodes algorithmiques, on les développe, on les exploite, et on progresse en travaillant sur les données de surveillance des moteurs, soit au moment des essais sur bancs, soit sur des données réelles en vol. Et donc pour nous, l’intelligence artificielle est tout sauf quelque chose de mécanique, ce n’est pas une boîte noire. Au contraire, on développe des méthodes algorithmiques, on les confronte en pratique, on fait des simulations, on développe les propriétés et ensuite on essaye de montrer le plus possible de résultats théoriques sur ces méthodes. En particulier : est-ce que l’algorithme converge ? Quelle est la qualité des estimateurs fournis ? Comment les comparer avec d’autres méthodes existantes ? Est-ce qu’elles apportent un mieux par rapport aux méthodes statistiques classiques ?
Vous êtes également experte du text and data mining, pourriez-vous nous définir le concept et les enjeux ?
Je ne suis pas vraiment experte en text mining, mais dans le cadre de la collaboration avec Stéphane Lamassé, qui lui, a un très grand savoir-faire sur le text mining avec les méthodes statistiques « un peu classiques », on s’est trouvé confronté au problème de catégoriser des textes. En particulier, on a travaillé sur des textes d’enseignement des mathématiques au Moyen Âge et on a essayé de les regrouper, de les positionner les uns par rapport aux autres, etc. Avec les historiens et les SHS en général, on a des données avec lesquelles on n’avait pas l’habitude de travailler. Bien que le text mining ait toujours été un domaine très important pour les historiens, dans les méthodes un peu classiques, il s’agissait souvent de calculer des fréquences de mots, ensuite de dresser des tableaux de contingence entre les différents mots et les différents textes pour savoir quelle était la fréquence de tel mot dans tel texte. On a essayé d’appliquer les cartes de Kohonen, c’est-à-dire une méthode de classification avec maintien d’une structure de voisinage entre les observations. Et donc on a obtenu des résultats qui apparemment plaisaient à nos collègues historiens. Cela leur a permis des interprétations qu’ils n’avaient pas vues au premier coup d’œil et la formalisation d’intuitions qu’ils avaient sans pouvoir les justifier. On a réussi à produire des sortes de cartes dans lesquelles des textes « similaires » apparaissaient comme voisins, alors que des textes qui étaient loin sur la carte étaient des textes de nature complètement différente. Je me souviens qu’on a opposé des textes qui étaient purement académiques avec des textes qui étaient plutôt pratiques (une sorte de manuel à l’usage des commerçants pour qu’ils puissent faire leurs calculs). Nos collègues historiens étaient contents, nous aussi, même si l’interprétation leur appartenait et que seuls eux pouvaient nous dire si ce qu’on obtenait était porteur de sens et pouvait leur permettre de développer des commentaires. Je n’ai pas travaillé beaucoup en text mining, c’est essentiellement grâce à la collaboration avec Stéphane Lamassé et ses collègues.
La France s’est lancée dans un plan stratégique dans lequel l’IA joue un rôle central. Comment une université de SHS comme Paris 1 peut-elle selon vous y contribuer ?
Je pense qu’il faut une prudence et une rigueur extrêmes vu que c’est très facile de lancer de grands mots : ce n’est pas parce qu’on dit que la France s’est lancée dans un plan généralisé d’algorithmique que la situation va progresser. Je pense que ce qu’on peut faire, c’est justement être le plus modeste possible et enseigner à nos étudiants d’être le plus modeste possible et le plus rigoureux possible. Parce qu’on peut dire absolument tout dans le cadre d’une orientation « IA ».
Pendant très longtemps, on a critiqué les statistiques en disant qu’elles peuvent dire tout et n’importe quoi, c’est encore plus vrai avec l’intelligence artificielle. Il faut faire comme dans les cours de statistiques : montrer aux étudiants qu’il ne faut pas prendre les conclusions pour des réalités avant qu’elles ne soient démontrées et leur rappeler qu’il faut de la rigueur. C’est pareil pour ce qu’on appelle l’intelligence artificielle, il faut être le plus précis possible. Je parle là en tant que mathématicienne, mais bien sûr l’intelligence artificielle concerne aussi des philosophes qui, eux, vont avoir un point de vue philosophique. En tant que mathématicienne et statisticienne, il faut être extrêmement modeste, expliquer et enseigner les bases, donner le sens des termes, les mettre en relation avec les notions. Il faut expliquer aux étudiants qu’un algorithme ne fait rien d’autre que ce que vous lui demandez de faire. Donc, on ne va rien découvrir de magique en utilisant un algorithme plutôt qu’un autre. L’algorithme, s’il est bien programmé, on va lui demander de faire une chose et il va la faire. Et effectivement, il va permettre d’accélérer énormément les calculs qu’un humain ne pourrait pas faire, il va découvrir des structures, des groupes, des relations, des graphes à l’intérieur de bases de données phénoménales dans lesquelles un humain serait totalement noyé. C’est vrai, mais en réalité, l’algorithme va seulement réaliser la tâche pour laquelle il a été programmé. Il y a vraiment un danger à penser que l’intelligence artificielle a sa vie propre, qu’elle va aider tout le monde à faire n’importe quoi, pour le meilleur et pour le pire. Ça, c’est complètement illusoire. Nous, on doit aider nos étudiants à bien savoir de quoi ils parlent, à être modestes, les ramener aux fondamentaux et enfin ne pas prendre des résultats qui peuvent être quelquefois impressionnants pour de la magie. Purement et simplement ça traite, ça résume des données, des quantités énormes de données (chose qui serait très difficile ou impossible à faire concrètement pour un humain), ça peut découvrir des structures qui sont invisibles à l’œil nu, mais ça ne découvre que parce que vous lui avez demandé de découvrir. Il n’y a aucune magie dans l’intelligence artificielle. Et ça, je crois que c’est très important que les étudiants en soient convaincus, et pas seulement les étudiants, les citoyens aussi d’ailleurs d’une manière générale.
Depuis les années 90 au moins, on enseigne à Paris 1 de l’intelligence artificielle aux étudiants sans mettre ce titre-là, puisqu’on leur fait des cours sur les réseaux de neurones et sur les algorithmes. On leur montre comment différentes techniques mathématiques peuvent servir à résoudre un certain nombre de tâches : des tâches de classification, des tâches de prédiction, des tâches de simplification de données, de construction de graphes qui sont donc toute une série d’outils qui se surajoute aux outils anciens qui étaient aussi des outils de data mining, même si le mot n’existait pas à l’époque. Par exemple, quand vous calculez une moyenne, vous faites de la data mining. Vous faites de la simplification, vous faites de la data mining, mais évidemment, c’est un peu pauvre. Les statisticiens ont développé beaucoup de méthodes pour extraire des informations à partir d’une grande base de données. Et la data mining continue ça et les techniques s’adaptent au fait qu’il y a des millions de données et donc on ne peut pas utiliser des méthodes trop simplifiées. Il faut utiliser des méthodes différentes. Il y a en particulier les méthodes itératives. Quand on étudiait les statistiques au lycée, souvent on faisait des calculs exacts, on prenait toutes les données d’un coup et on faisait des calculs. Maintenant, dans tout ce qui est machine learning, data mining, on sait que les données on les prend par paquets, et parfois même on les prend une à une et on fait des calculs qui s’approchent d’un résultat : on fait des calculs par itération. C’est cette notion d’itération qui est complètement liée à la notion d’algorithme. Il faut qu’elle soit bien assimilée par nos étudiants pour qu’ils comprennent que ce n’est pas toujours le mieux d’essayer d’avoir toutes les données et de faire des calculs exacts. On n’y arrivera pas. Il y a un certain nombre de cas où le calcul exact n’est pas possible, et donc on fait des calculs par approximations successives. Et ça, c’est aussi une notion très importante.
Une autre notion qu’il faut mettre dans la tête de nos étudiants, c’est la notion de simulation c’est-à-dire qu’avant de lancer une étude sur les données réelles et avant de savoir si un algorithme marche bien, il est souvent très utile de commencer par faire des simulations pour faire des expériences. Cela ressemble aux expériences de laboratoire, sauf que ce sont des expériences numériques pour essayer de comprendre comment ajuster les paramètres pour que ça marche. Et donc c’est une façon de faire des mathématiques qui est quelquefois un peu difficiles à comprendre pour des étudiants qui voient quelquefois les mathématiques comme quelque chose où on prend un papier, un crayon, on fait des calculs et puis voilà qu’on trouve un résultat.
Ce qui serait bien, ça serait que tous nos étudiants de droit, de langue, SHS, ou autres… aient une idée des mathématiques un peu différente de celle que la plupart ont, qu’ils ne pensent pas que c’est une sorte de matière figée où tout a déjà été démontré. Beaucoup d’étudiants non-mathématiciens pensent qu’il n’y a rien à démontrer en maths, que tout est fait, que c’est une science fermée. Ils ne comprennent pas, ils ont du mal à comprendre ce que c’est que la recherche en mathématiques et donc le fait que les mathématiques aient des interactions avec beaucoup d’autres disciplines. C’est une chose qu’on souhaiterait vraiment qu’ils acquièrent à l’université. Par exemple, si je prends le cas des historiens, je me souviens de débats très animés avec des collègues historiens qui me disaient qu’il ne fallait pas mettre du quantitatif dans l’histoire, que les statistiques sont vraiment la négation de la science historique, etc. Et moi j’essaye de leur dire que ça dépend de comment on les utilise et qu’effectivement il y avait peut-être des auteurs qui ont fait dire n’importe quoi aux statistiques. De même qu’on peut faire dire n’importe quoi à l’intelligence artificielle. Mais ça n’est pas là une caractéristique des mathématiques, c’est une mauvaise utilisation de la matière. Donc ça serait bien que nos étudiants aient une culture scientifique qui leur permette d’avoir un esprit critique là-dessus.
C’est comme pour ChatGPT, c’est parfait pour corriger les fautes d’orthographe, obtenir des réponses précises à des questions que vous vous posez. C’est parfait pour écrire des codes informatiques quand on a fait un pseudo-code et que l’on connaît à peu près les étapes, il va effectivement mettre cela en forme. Mais ça n’est pas une magie non plus et ChatGPT ne va rien découvrir qui ne soit pas déjà dans l’esprit humain. Simplement, c’est un outil qui va permettre d’aller plus vite et de synthétiser. Il n’est alimenté que par les contenus que les humains ont mis dedans. Je pense qu’il est très important que nos étudiants aient un esprit critique par rapport à cela. Je ne dis pas que tous doivent suivre des cours approfondis, mais qu’au moins ils aient cet esprit critique et cette position par rapport à toutes ces notions si médiatisées.
Les grands mots et les grands discours actuels sur l’intelligence artificielle me font un peu peur parce que je pense que ça risque de donner des illusions, mais aussi une obligation d’obéir aux injonctions, parce que l’intelligence artificielle l’a dit. Mais ça, c’est très dangereux, parce que l’intelligence artificielle ne dit rien du tout. Si vous utilisez des techniques d’intelligence artificielle correctement et que vous posez des questions et bien vous obtenez des réponses et c’est tout. C’est comme le système de recommandations qu’on connaît très bien maintenant en marketing. Tout ce système de recommandations est une invention humaine et ne prévoit absolument pas ce que vous allez aimer ou pas aimer. Il n’y a aucune raison de se plier à ces recommandations comme si c’était des diktats supérieurs ou divins. Le risque est que l’IA soit utilisée par certains pour asséner des injonctions, prétendre détenir une vérité supérieure, alors que l’IA doit être seulement un outil au service de la société, pour aider à réaliser des tâches complexes, fastidieuses, etc.
C’est bien qu’on ait mis en place à Paris 1 l’Observatoire de l’Intelligence artificielle, parce qu’effectivement ça permet de réunir des collègues philosophes, économistes, historiens, informaticiens, mathématiciens, qui chacun dans leur coin avaient des travaux qui sont en lien avec l’IA. L’intelligence artificielle c’est bien si l’on en fait un outil critique ou un outil de collaboration, mais ce n’est pas un outil magique.