Entretien avec Philippe Huneman sur la prédiction, le profilage et l’IA
Né en 1970, Philippe Huneman est un philosophe français. Il est directeur de recherche à l’Institut d’histoire et de philosophie des sciences et des techniques (CNRS/université Paris 1 Panthéon-Sorbonne) où il est responsable de l’équipe « Philosophie de la biologie et de la médecine ». Formé d’abord en mathématiques, il s’est spécialisé dans la philosophie de la biologie, en particulier évolutive, et de l’écologie.
Il a publié de nombreux articles sur des questions relatives au concept d’organisme, à la sélection naturelle, à l’écologie théorique ou aux modalités de l’explication biologique — ainsi qu’aux théories du complot et à la méfiance envers la science. Il publie aussi bien des articles académiques que des textes sur des questions politiques dans les journaux tels que AOC Média (« Le monde selon GPT ? [1/2] Trois conditions philosophiques et l’espace des intelligences » [juin 2023], « Le monde selon GPT ? [2/2], Mais de quoi donc parle-t-il ? »[juin 2023]).
Philippe Huneman a entre autres co-dirigé avec Thomas Heams, Guillaume Lecointre, Marc Silberstein, Les Mondes darwiniens (Éditions Matériologiques, 2011), avec Denis Walsh, Challenging the Modern Synthesis (Oxford University Press, 2017), et avec Christophe Bouton, Temps de la nature, nature du temps (CNRS Éditions, 2018).
Auteur de Métaphysique et biologie. Kant et la constitution du concept d’organisme (Kimé, 2008), et de Pourquoi ? Une question pour découvrir le monde (Flammarion/Autrement 2020), il a aussi récemment publié Les sociétés du profilage. Évaluer, optimiser, prédire (Payot, 2023).
Pourriez-vous vous présenter et nous expliquer votre parcours ?
Je suis directeur de recherche à l’Institut d’histoire et de philosophie des sciences et des techniques (CNRS–université Paris 1 Panthéon-Sorbonne). Je suis spécialisé dans la philosophie de la biologie évolutive et de l’écologie. Mon travail porte aussi sur des questions qui sont plus générales comme la philosophie des sciences ou le rapport entre l’histoire de la biologie et la philosophie, et en particulier la philosophie des XVIIIe siècle et XIXe siècle.
J’ai d’abord travaillé sur les relations entre la biologie naissante au XIXᵉ siècle et la philosophie kantienne. Ensuite, je me suis tourné vers des questions qui sont vraiment liées à la biologie évolutive, et notamment les problèmes posés par l’évolution par sélection naturelle qui sont de nature aussi bien métaphysique qu’épistémologique. J’ai développé des options théoriques sur le rapport entre le hasard et la nécessité, et plus précisément entre les modèles stochastiques ou aléatoires et les modèles sélectionnistes pour expliquer des patterns de biodiversité en écologie ou des traits des organismes. De manière générale, je me suis interrogé sur le concept de sélection naturelle et l’explication qui y a recours, ainsi que sur le concept d’individualité biologique ou celui d’organisme (ce qui n’est pas exactement la même chose, mais ce qui entraîne beaucoup de problèmes liés). Et j’ai travaillé avec des biologistes et des écologues sur des questions qui relèvent parfois de la biologie, mais ont à voir avec le type de cadre théorique qu’on devrait privilégier pour penser la biologie évolutive (l’épigénétique, la prévalence des modélisations en réseau…). J’ai aussi écrit de manière assez générale sur ce qu’est une explication en écologie, en biologie, et le rôle des mathématiques dans ces explications.
Tout cela semble assez loin de l’intelligence artificielle, mais un peu plus récemment, j’ai abordé la question de la prédictibilité, aussi bien de l’écologie prédictive que de la génomique, discipline dans laquelle on trouve de nombreuses notions et modèles qui sont plutôt prédictifs qu’explicatifs. Et dans ce cadre j’en suis venu à des problèmes qui concernent l’intelligence artificielle. En particulier, je me suis intéressé aux rapports entre les prédictions fondées sur des statistiques (des corrélations statistiques fortes) et la causalité. Ceci m’a amené à des interrogations très générales sur le rôle des données massives et des algorithmes aussi bien dans la science, épistémologiquement, que dans ce qu’on pourrait appeler la gouvernementalité ou les modes de socialité.
Quand et comment avez-vous découvert l’intelligence artificielle ? Pourriez-vous nous expliquer vos principaux travaux sur le sujet ?
Au sens strict, mon intérêt sur ces questions date d’à peu près dix ans, à partir du constat du rôle du machine learning et des algorithmes dans les statistiques qui soutiennent la prédiction en écologie. Ce dernier point m’intéresse depuis longtemps. On avait alors publié un article avec Virginie Maris, philosophe, Vincent Devictor, écologue, et quelques autres sur les rôles de la prédiction en écologie (''Prediction in ecology: promises, obstacles and clarifications'' dans la revue Oikos en 2018). Les écologues sont extrêmement intéressés par ce sujet dans la mesure où les écosystèmes sont des systèmes très complexes et il est parfois extrêmement difficile de construire un modèle capable de saisir les relations causales entre les éléments.
Dans le même temps, avec l’urgence du changement climatique et la perte de la biodiversité, il faudrait quand même être apte à prédire ce qui va se passer. On a beaucoup discuté la possibilité d’une « écologie prédictive », notamment dans le cadre de l’Institut national écologie et environnement du CNRS, et notre article était parti d’une table ronde que nous organisions sur le sujet aux Prospectives de l’INEE en 2015. Depuis les années 2000, il y a eu des tentatives très intéressantes de saisir les signaux annonciateurs de changements majeurs et cela a donné lieu à un débat théorique sur les corrélations entre la prédiction et les statistiques. De tels signaux, les « early warning signals », sont en écologie des signaux précoces de transitions catastrophiques. Par exemple, en suivant un certain nombre d’indicateurs, comment est-ce qu’on peut savoir à l’avance si un lac va devenir un désert ? Cela a donné lieu à un certain nombre de débats théoriques intéressants pour le philosophe sur les rapports entre corrélation, causalité, explication, prédiction. De même, cette question des signaux a donné lieu à une importante littérature par les écologues, comme les articles de Sonia Kéfi (CNRS Montpellier) qui avait travaillé avec nous sur le papier sur les prédictions. Au sens scientifique, ces signaux d’avertissement précoces et catastrophiques signifient qu’on passe très vite d’un régime de fonctionnement à un autre régime très différent. Il faut signaler que ce n’est pas forcément négatif. Et cela implique des questions sur les faux positifs, questions qui sont finalement assez familières au philosophe des sciences depuis deux ou trois décennies. En effet, que fait-on d’un modèle qui va donner de faux positifs ? C’est un cas typique dans lequel une décision épistémologique est à prendre, à savoir, quel modèle préférer, en incluant des questions pratiques dans ce choix théorique (dans notre exemple, on veut à tout prix éviter que le lac devienne un désert). Cette question entre dans la méthodologie de la prédiction.
Par ailleurs, j’ai commencé à vraiment aborder les notions d’intelligence artificielle, en tout cas d’algorithmes et de données massives, avec un premier petit article sur le profilage, assez grand public, dans Slate fin 2015, à l’occasion des « lois surveillance » que la France s’apprêtait à édicter suite aux attentats du Bataclan. De là, je me suis intéressé aux modifications des comportements via les biais cognitifs, qui posent évidemment des questions politiques comme celle du « paternalisme soft » ou du « paternalisme libertarien ». « Paternalisme », parce qu’il y est supposé que les gens ne savent pas ce qui est bien pour eux et qu’il faut le leur faire faire. « Soft », parce qu’il n’y a pas de contrainte, mais l’architecture du choix et la manière dont les choses sont présentées sont telles que les gens vont se diriger librement vers la solution qui est considérée comme leur bien. Une grande masse de travaux en psychologie, en économie psychologique et en sciences cognitives, porte sur ces affaires-là. Mais c’est plutôt la dimension politique qui m’a retenu, et sur laquelle j’ai commencé à réfléchir ; arrêtons-nous un instant là-dessus.
Ce point croise en effet la question déjà ancienne pour moi de la biologie évolutive, ma spécialité épistémologique, même si ce n’est pas évident au premier abord. Néanmoins, ça le devient assez vite si on comprend la notion aujourd’hui passe-partout de biais cognitif, que les psychologues évolutionnistes ont tendance à voir comme une « mal-adaptation ». Un biais cognitif signifie pour dire vite une tendance à se tromper systématiquement dans un même sens. Prenons un exemple. Face à quelqu’un atteint d’une maladie grave, beaucoup adoptent des conduites d’évitement, vite considérées comme complètement irrationnelles lorsqu’il s’agit d’une maladie non contagieuse. Or on peut supposer qu’en des temps ancestraux, lors de l’évolution des hominidés, les conduites d’évitement étaient une adaptation à des circonstances épidémiques amenant à fréquenter les malades. Dans ces âges très anciens, préhistoriques, en effet, personne ne connaissait les maladies, mais ceux qui avaient tendance à éviter les gens paraissant malades avaient l’avantage de ne pas attraper les maladies contagieuses, par rapport à ceux qui se comportaient pareillement avec tous, apparemment malades ou pas, donc survivaient puis se reproduisaient davantage. En vertu d’un tel avantage, ce genre de disposition ou de comportement a alors été sélectionné donc retenu par l’évolution, c’est-à-dire implanté génétiquement. Les biais se comprennent alors comme ce qu’on appelait parfois « mal-adaptations », des dispositions qui représentaient des adaptations dans des environnements primitifs et qui ne sont plus du tout adaptatives, mais qui sont toujours héritées. Ceci représente le modèle de l’explication évolutionniste des biais cognitifs, laquelle soulève une question qui est toujours fondamentale pour moi, à savoir celle de l’adaptation.
Dans mes travaux de philosophie de la biologie, je réfléchis en effet beaucoup à ce qu’est l’adaptation puisque dans le cadre darwinien, la thèse de base est : « une adaptation résulte de la sélection naturelle ». Quand il y a des interrogations méthodologiques, épistémologiques ou ontologiques sur la sélection naturelle, il y a des interrogations sur l’adaptation. Ainsi, quand on se demande si tout ce qu’on voit dans la nature est le résultat de la sélection naturelle, on se pose en réalité la question des limites de l’adaptation dans le monde naturel, qu’on nomme depuis un article célèbre des biologistes Stephen Jay Gould et Richard Lewontin « l’adaptationnisme ». Mais politiquement la thématique de l’adaptationnisme et des biais cognitifs se prolonge dans la question dite du paternalisme soft, avec ce qu’on nomme le « nudge », dont le livre éponyme, écrit par l’économiste « Nobel » Richard Thaler et le prolifique juriste Cass Sunstein constitue la théorisation originelle. Un « nudge » consiste en une petite poussée sur les gens qui les dévie de leur trajectoire. Or ce « nudge » existe parce que les gens ont des biais, que l’on peut exploiter par la stimulation idoine.
Et donc j’ai écrit le livre qui s’intitule Les sociétés du profilage — Évaluer, optimiser, prédire, où j’essaye de tenir ensemble pas mal de fils. L’un d’eux est la relation entre la théorie anthropologique darwinienne, le paternalisme soft (qui suppose que les gens présentent une pléthore de biais cognitifs relativement irrationnels, donc pas complètement adaptés), et les dispositifs algorithmiques numériques (appareils algorithmiques de traitement de données massives recueillies par un certain nombre d’autres dispositifs, par exemple sur Internet). J’ai voulu comprendre comment les dispositifs algorithmiques de données massives permettent à la fois des opérations de « nudge » et se combinent avec un certain type de politique néolibérale de manière telle qu’au final, les interactions des gens permettraient les équilibres prédits dans les modèles libéraux classiques en économie.
Et sur cette société de profilage qui est l’objet de votre ouvrage. Est-ce que vous pourriez nous la définir et puis nous expliquer ses manifestations et les recommandations que vous avez pu émettre dans votre ouvrage ?
Le titre exact de l’ouvrage, c’est Les sociétés du profilage, évaluer, optimiser, prédire. La locution elle-même est calquée sur ce que Michel Foucault appelait dans « Surveiller et punir » les « sociétés de discipline », à propos de ce qui émergeait au XIXe siècle autour de la révolution industrielle. Un peu plus tard, Gilles Deleuze va parler de « société de contrôle ». Il s’agit pour eux de qualifier certains types de sociétés, mais aussi un certain type de gouvernement d’une société. Je me suis posé la même question à partir de réflexions sur les données, les algorithmes, les « nudges », le paternalisme soft.
C’est très lointainement un livre marxiste. Pour Marx, dans une société — et ici je simplifie à l’extrême —, il y a les forces productives (par exemple : pour extraire le charbon, faire tourner les moulins, etc.) qui conditionnent ce qu’il appelle les rapports sociaux, ceux qui déterminent les modes d’organisation de la société et l’accès de telle catégorie de personnes aux biens ou aux services dans la société. À partir de la révolution industrielle, on aura pour matrice de ces rapports un face-à-face du capital et du travail, et de tels rapports sociaux vont conditionner la politique, l’idéologie et les luttes politiques. Mais en deçà de cela je me posais la question de savoir quels types de rapports sociaux spécifiques vont aujourd’hui émerger, puisque nos capacités, c’est-à-dire nos forces productives au sens de Marx, sont actuellement déterminées par la technologie, les algorithmes, l’informatique. Foucault parlait de « société de discipline » en expliquant qu’à la révolution industrielle le problème du capital consistait à gérer les populations pour qu’elles soient optimalement productives. Pour cela, il s’est appuyé sur une tradition monastique préexistante : la discipline. Il faut se lever à telle heure, faire telle tâche, et tout le monde doit remplir son programme synchronisé avec les autres. Quand un individu dévie, il se prend des coups de baguette sur les doigts. Les grandes institutions sociales telles que l’armée, l’école, l’hôpital, l’usine et ultimement la prison vont être repensées et restructurées à partir de là.
Foucault trace un lien entre la discipline et la prison dans son livre « Surveiller et punir ». La notion centrale dans ses propos, c’est la norme : pour que tout marche bien, pour qu’une usine marche bien, il faut que les gens, les ouvriers ne s’écartent pas de la norme, il ne faut pas par exemple qu’ils aillent faire la sieste pendant le travail. Pour assurer ce respect de la norme, on a besoin de deux choses : les surveiller pour vérifier qu’ils restent dans la norme et les punir lorsqu’ils s’écartent de la norme. C’était très général, Foucault parlait d’un continuum de la discipline regroupant l’école, la caserne, l’usine, l’hôpital, la prison, et par lequel passait le sujet des sociétés modernes pendant sa vie ; mais il est aussi clair qu’actuellement les relations entre norme et transgression ne sont plus aussi centrales. On sait très bien que les gens ne s’habillent pas tous de la même façon, qu’ils ne travaillent pas tous pareil. Au contraire, il y a même des idéaux sociaux d’individualité qui ont émergé depuis 50 ans, et que bien des sociologues nous présentent comme dominants.
Donc ma question était : quel type de gouvernementalité se forme-t-il sur la base des techniques actuellement existantes ? Qu’est-ce qui tient lieu de la discipline foucaldienne dans la société présente, qui est celle du capitalisme financier ? Quand on regarde la Bourse, les sociétés les plus cotées en bourse sont en effet des sociétés qui emploient très peu d’ouvriers (les GAFAM par exemple, ou les plateformes comme Netflix, Booking, etc.) alors qu’auparavant ce n’était pas le cas. Ceci pose la question du statut du travail ouvrier. Pour Marx, la production de plus-value, moteur du capitalisme, c’était le travail. Les ouvriers travaillaient davantage que ce pour quoi ils étaient payés (à savoir la production/reproduction de leur force de travail) et cet écart générait l’enrichissement du capital. Actuellement, avec l’ensemble des capacités productives et technologiques, il y a bien moins besoin de travailleurs. Donc un nouveau type de capitalisme s’installe et avec d’autres je suggère que la donnée, l’exploitation de la donnée et sa captation y jouent le rôle de la construction du capital et de l’exploitation de la plus-value du travailleur à l’époque de Marx.
Cela ne veut pas dire qu’il n’y a plus de travail. On peut dire que la problématique de Marx a été exportée en Asie du Sud-Est et en Afrique, où on trouve encore beaucoup de travailleurs, tous terriblement exploités. Mais pour les autres sociétés (en tout cas européennes, américaines, chinoises…), on peut admettre l’idée que l’on construit et produit l’enrichissement du capital avec la donnée. À la question de savoir comment marche tout cela, la réponse que je donne dans le livre se centre sur l’objet « profil », que j’ai essayé aussi de définir d’une manière relativement simple.
Le mot profil est banal. Mais c’est exactement ce mot qu’on emploie sur certains réseaux sociaux (quand on nous demande par exemple de remplir le profil Facebook ou le profil Tinder…). Et donc les gens sont familiers avec ça. Effectivement, intuitivement, le profil répond toujours à la question « qui est-on ? ». Et cette réponse s’élabore, me semble-t-il, à partir des données qu’on laisse.
J’ai choisi le mot « profilage » à cause d’un double sens usuel lui aussi. D’une part, on parle du profileur qui est un personnage classique des séries télé, celui ou celle qui va établir le profil du tueur à partir d’un certain nombre d’informations, et même prédire où on va pouvoir le trouver. D’autre part, c’est un terme utilisé à propos des matériaux aéronautiques, pour décrire l’opération par laquelle on donne une forme à une pièce d’un avion, comme l’aile ou le fuselage. Ce double sens m’a intéressé. Profiler, inclut à la fois cette notion-là, notion de prédiction extrêmement fine et précise, et cette notion-ci de modelage de corps — en l’occurrence ici, des comportements et des croyances.
Alors, comment ça marche et pourquoi ? Un profil, c’est un ensemble de données à propos d’une personne, constitué à la fois par les données qu’elle aura laissées volontairement (typiquement, ceux qui postent leurs photos sur Facebook ou Instagram), et par celles collectées sur la personne via ses comportements à chaque fois qu’elle croise des outils numériques de captation de données (exemple : les capteurs GPS quand la personne prend une trottinette de louage, les données de navigation sur Internet…), c’est-à-dire plusieurs centaines de fois par jour en Asie ou en Occident.
Un profil signifie donc un ensemble de points dans un hyperespace de données (autrement dit, un espace à n dimensions, n étant sensiblement supérieur à 3). Et on dispose d’un profil collectif quand on détient un ensemble de données sur un individu que l’on peut ensuite inclure dans une classe d’individus qui partagent avec lui des propriétés. Pour un individu donné, ce profil collectif permet de prédire les actions qu’il n’a pas encore faites, les affects qu’il va probablement exprimer ou même ressentir, parce que c’est ce que l’on trouve dans le profil collectif auquel son profil individuel appartient. C’est ce qui se passe avec les algorithmes de recommandation. Par exemple : vous avez aimé la série Black Mirror sur Netflix ? Vous recevrez une recommandation qui dira : « les gens qui ont aimé Black Mirror ont aussi aimé ceci »… etc. Et plus existent de données sur la liste des films vus et aimés par le spectateur, plus cette prédiction va être fiable. De cela deux conclusions peuvent être tirées.
La première : les profils sont prédictifs grâce à la comparaison entre profil individuel et profil collectif. Plus on a de données sur les individus et d’individus à profiler, plus la prédiction va être fine, car dans un hyperespace de données saturé de nombreuses corrélations, il y a de très fortes chances de faire de bonnes prédictions. Au contraire, quand il y a peu de données, des corrélations peuvent être détectées, mais présentent de fortes chances que les prédictions qu’elles appuient soient fausses. En effet, dans ce cas on aura du mal à distinguer entre les corrélations qui tiennent par hasard (comme la covariation forte entre les apparitions de Nicolas Cage dans des films et les décès par strangulation aux USA, selon le site spuriouscorrelations.com [!]) et les corrélations soutenues par des relations causales. Or, c’est quand il existe une causalité sous-jacente que l’on sait prédire avec fiabilité ; du moins c’est comme cela que l’on pensait jusqu’à ce qu’on appelle parfois la révolution des données massives ou big data. L’idée nouvelle ici, que l’on peut maintenant développer à partir de cette affaire de profilage et de données massives, c’est que lorsqu’on dispose de données en très grand nombre dans un hyperespace de données, on obtiendra des corrélations qui permettent des prédictions relativement robustes sans avoir besoin de compréhension causale. Ce qui nous ramène à ce qui a été dit sur l’écologie prédictive où l’on essaye de prédire simplement en identifiant une myriade de corrélations alors même que l’on n’a pas d’idée sur le fonctionnement du système.
La seconde conclusion, en lien avec l’intelligence artificielle, je l’illustrerai par ce fait singulier qu’un algorithme de recommandation n’a pas forcément de notion du contenu des films qu’il sait aimés par certains profils, puisque seul compte le profil collectif, issu de la comparaison entre profils de données de type « aimer/ne pas aimer un film ». Autrement dit, cela nous mène à une question qu’on retrouve au cœur des discussions autour des grands modèles de langage : « est-ce qu’ils comprennent ce dont ils parlent ? » La plupart de ceux qui y réfléchissent disent que non. Quand on demande à un grand modèle de langage de type GPT quel est le plus grand peintre de la Renaissance, il répond « Léonard de Vinci ». Sa réponse provient de ceci que le plus souvent, dans tous les textes qu’il a lus, le terme succédant le plus probablement à « peintre de la Renaissance » est « Léonard de Vinci ». Mais il ne le « sait » pas, au sens où nous, nous savons que Léonard de Vinci est peintre. Ce que le modèle de langage connaît, la base de son mécanisme, ce sont des proximités dans des hyperespaces de mots, de même que les algorithmes de recommandation ou ceux employés dans les opérations de profilage connaissent des proximités dans les hyperespaces de données.
On parle beaucoup de « Big Data », de collecte de données, etc. Mais qu’est-ce qu’est vraiment une donnée ? Existe-t-il une définition générale ? Est-ce un concept bien défini en philosophie ?
C’est un concept assez polysémique. Je vous parlerai d’abord de philosophie et ensuite des données, dans le sens qu’on leur donne maintenant.
En philosophie, la donnée ou la data est prise dans un grand questionnement sur l’origine de la connaissance. Par exemple, en anglais on a l’expression ''sense data'' c’est-à-dire les données des sens. En théorie de la connaissance, vous avez alors deux options de base. Un parti soutient que toute la connaissance vient de ces sense data, ce sont les empiristes, comme Locke, Hume ou Condillac. Et l’autre parti affirme que cela ne se peut pas, car il y a des structures qui ne sont pas dans les données des sens, et sont imposées en quelque sorte par l’esprit : c’est le camp rationaliste, pour résumer. Cette notion de données a donc à voir avec ce qui est saisi par les sens.
Il est clair que dans les débats contemporains sur les données des data scientists, on trouve un sens du mot assez différent de ''sense data''. À ma connaissance, il existe un très grand nombre de travaux qui traiteraient les deux notions simultanément. Mais toujours est-il que dans le second cas, la donnée c’est ce qui vous est donné en fait, alors que dans la thématique philosophique classique de la théorie de la connaissance, c’est ce qui vous est donné par les sens. Dans le monde contemporain, on parle par exemple de big data, de data scientists, contextes où la donnée signifie ce qui est donné à des dispositifs de recueil de données, de captation, lesquels sont généralement digitaux.
La notion de donnée est prise, à mon sens, entre plusieurs autres notions qui sont celles de trace et d’information. Dans l’idée de don, on suppose que la donnée est recueillie de manière assez peu coûteuse. Pour la philosophie de la connaissance classique, il n’y a pas d’effort à réaliser pour voir une donnée : on ouvre les yeux et le monde nous est donné. Avec une donnée numérique, il en va de même, le dispositif correspondant la recueille de manière immédiate. Pour dire vite, les gens, les animaux, les phénomènes météorologiques laissent des traces, et la donnée, elle, est construite à partir de ces traces. Par exemple, quand on prend une trottinette électrique à Paris, on se déplace, on laisse une trace qui est un signal GPS. Ce signal est une donnée, parce qu’une telle trace peut être reliée à vous. Il n’est pas juste un trait dans l’espace des signaux GPS, il est aussi relié à cette trottinette. Et à partir de là, cette donnée est informative sur quelque chose, ça peut être sur vous, ça peut être sur les trottinettes, ça peut être sur Paris, c’est en réalité sur les trois, ensemble, selon la question que l’on va poser et pour laquelle on la mobilisera, immergée dans un immense espace d’autres données.
Ainsi, quand je rapporte ce trajet à tous mes déplacements en trottinette, cela fournit une information sur mon lieu d’habitation (si tous mes trajets en trottinette partent du même point, c’est que c’est mon adresse) ; si je rapporte ce trajet en trottinette à tous les trajets en trottinette faits à Paris, cela donne des informations sur les habitudes de transports des Parisiens. Donc cette donnée détient un potentiel informatif, qu’elle réalise lorsqu’elle est colligée, coassemblée avec d’autres données plus ou moins hétérogènes.
La donnée, c’est cela : elle part d’une trace qui peut être mise en relation avec d’autres traces, et constituer une information sur quelque chose dès qu’on la met en relation avec d’autres données basées sur d’autres traces.
On comprend alors ce que signifie la locution « données massives ». Elle dit certes qu’on accède à bien des données, mais cela ne suffit pas à définir ce qu’on entend par là. On y inclut d’autres propriétés qui sont tout aussi importantes. Classiquement, on appelle cela les 4 V : volume, vitesse, variabilité et valeur au sens financier, mais je laisse le 4e point de côté. Volume parce qu’il y a en effet beaucoup de données ; Vitesse parce qu’elles sont produites rapidement ; Variabilité, et c’est absolument fondamental, parce que les données concernent des choses très différentes et qu’elles sont de formats divers (textes, photos, sites, pixels, séquences de caractères…), si on revient au moment où la trace devient quelque chose de digital. Ce sont des données massives parce qu’elles sont produites très rapidement, qu’elles peuvent informer « en temps réel » (comme on dit parfois), et nous informer des changements du monde. Et c’est parce qu’elles sont variables qu’elles présenteront une forme de fiabilité informative. Ceci est extrêmement simple à comprendre. Si on n’a que les trajets en trottinette des gens dans Paris, cela va fortement nous limiter pour comprendre leurs modalités de déplacement. On aura certes des informations, mais celles-ci seront extrêmement frustes, car la plupart des gens ne circulent pas en trottinette.
Pour comprendre les données massives, il faut comprendre leur usage, donc bien saisir que ces données constituent un hyperespace de données. L’hyperespace est un espace mathématique à un très grand nombre de dimensions, à la différence de cet espace-ci où je me trouve, dit euclidien, qui a trois dimensions : longueur, largeur, hauteur. Maintenant, si on veut représenter abstraitement des choses, on peut imaginer qu’on les place dans un espace en fonction de leurs propriétés. Par exemple, si j’ai une information sur la richesse et la taille des gens, cela fait deux propriétés et donc deux dimensions : chaque individu détermine un point dans cet espace à deux dimensions. Si maintenant j’ai aussi leur poids, les individus seront des points dans l’espace à trois dimensions. Et très souvent, si vous prenez par exemple la démographie usuelle, jusqu’aux années 1980-90, on avait plutôt quatre ou cinq dimensions : le lieu de naissance, la catégorie socioprofessionnelle, le niveau de richesse, le niveau d’étude, etc. Avec les données massives, on travaille avec des centaines ou des milliers de dimensions. Il va donc falloir se représenter un individu dans ces dimensions. Reste que dans un espace à 100-500 dimensions, c’est toujours un point.
Mais comment arrive-t-on à ces données ? Avec tous les dispositifs de recueil de données, le système de localisation GPS pour les déplacements des gens, les bornes de téléphone mobile pour les lieux où ils passent des coups de fil, la localisation des adresses IP. Par la suite, quand les personnes naviguent sur des sites Internet, les ordinateurs, et donc les adresses IP, les recherches Internet et les choix d’achat pourront être corrélés. On aura énormément de données, ce qui va entraîner deux conséquences.
D’abord et très simplement dit, les statistiques qui vont être faites sur des hyperespaces de données vont être bien compliquées. On connaît une ancienne et honorable tradition de statistiques, qui a donné des résultats certes assez sophistiqués : on y fait des régressions linéaires concernant la façon dont une variable informe sur une autre variable. Avec ces techniques on peut ainsi voir comment le niveau d’éducation peut agir sur la catégorie socioprofessionnelle, et le revenu de la famille sur le niveau d’éducation, etc. On sait le faire depuis longtemps. Les statistiques plus compliquées des hyperespaces de données vont, elles, relever assez souvent d’un traitement algorithmique type machine learning, deep learning, etc.
Deuxièmement, à partir du moment où existe cet hyperespace de données, on a la possibilité de réaliser des calculs algorithmiques pour élaborer des statistiques informatives sur un certain nombre de choses. On peut par exemple calculer des scores qui ramasseraient de manière extrêmement simple beaucoup d’informations statistiques.
Prenons l’exemple du « score de crédit ». Il faut savoir qu’on laisse des données à chaque fois qu’on navigue sur Internet, qu’on effectue des recherches ou qu’on fait des achats. Ces données sont recueillies par des entreprises — courtiers en données (data brokers) — qui les agrègent pour construire certaines notions ou entités qui s’appellent des scores. Le « score de crédit » est un indicateur de votre capacité de rembourser un emprunt d’une somme d’argent sur une période d’année à un montant donné. Il est beaucoup plus précis que ce qu’on utilisait d’habitude : il ne se contente pas de constater que vous gagnez trois fois le montant de la traite pour prendre un crédit, car il se calcule à partir de l’ensemble des données laissées derrière soi. Par exemple, très naïvement si je fais régulièrement une foultitude d’achats le jour où je touche mon salaire à la fin du mois, c’est déjà une donnée qui va être collectée et assemblée avec d’autres, et entrer dans le calcul d’un score assez bas. Il y a des centaines de firmes qui récupèrent les données via Google Analytics. Google lui-même le fait aussi, et vend les données d’autres entreprises. Ces entreprises agrègent des points de données sur les individus, calculent des scores de crédit, vendent les scores de crédit à des banques et les données d’autres entreprises. Une de ces firmes d’agrégation de données est très connue, elle s’appelle Acxiom et possède des milliers de points de données sur tous les Américains, et sur beaucoup d’autres — par exemple des données sur l’achat de produits de beauté, et elle vendra ces données à des entreprises comme Sephora ou L’Oréal.
Une fois qu’on a dit ça, on comprend assez vite comment un certain type d’économie accompagne ce système. On dit très souvent que la donnée est le nouvel or noir, ce n’est pas faux, mais cela veut dire aussi que la donnée constitue une manière d’être informé et même de prédire des choses sur les personnes. À partir d’un recueil de données, on détient une capacité prédictive qu’on peut vendre aux entreprises ou aux gens de pouvoir qui sont intéressés à prévoir ce que vont faire les gens dans une circonstance donnée.
Pour reprendre ce que vous venez de dire, est-ce que les données rendent inutile le souci de vérité ?
Si je repars de l’écologie prédictive, on pourrait dire que plus on dispose de données sur les écosystèmes, plus on a une vraie connaissance de ce qui se passe. Mais on verra alors beaucoup de corrélations sans que cela aille de pair avec davantage de connaissances sur les relations de causalité. On va devenir de plus en plus prédictif sans connaître ce qui se passe au fond. Est-ce mieux ? Pour le philosophe des sciences, ceci est un très vieux débat. Un écologue très important en biologie évolutive, Richard Levins, a publié en 1966 un article intitulé « La stratégie de construction de modèles en écologie » (The Strategy of Model Building in Population Biology). Selon cet article, une théorie scientifique peut viser plusieurs buts possibles : comprendre, prédire et modéliser. Mais surtout, dit Levins, on peut l’évaluer selon des valeurs épistémiques distinctes. Qu’est-ce à dire ?
Prenons l’exemple d’une étude sur les proies et les prédateurs. D’une manière générale, les prédateurs mangent les proies (ex. : les renards et les lapins). On va alors construire un modèle d’interactions prédateurs-proies, lequel peut servir plusieurs buts. Le premier but serait de comprendre ce qui se passe entre les renards et les lapins. Le deuxième but, pourrait être la détermination du moment exact de notre traitement par pesticide, il n’y aura plus de proies — à supposer que les proies, des poules ou des lapins, soient notre souci. En effet, si une grande majorité de prédateurs est tuée, dans un premier temps la population de proies va exploser, permettant dans un second temps une remontée rapide des effectifs de prédateurs au-delà de l’effectif initial, et éventuellement une disparition des proies. Cela semble contre-intuitif, mais c’est bien l’allure générale d’une dynamique à laquelle tous les instituts consacrés au contrôle des nuisibles et espèces invasives sont confrontés depuis un siècle.
Le troisième but, enfin, consiste à modéliser de manière très générale les rapports entre proies et prédateurs. À partir de là vous pouvez avoir les équations de prédation de Lotka-Volterra, connues de tous les étudiants en écologie. Ce sont des courbes sinusoïdales liant par deux équations différentielles la taille de la population des prédateurs et la taille de la population des proies. Ces courbes sont un peu décalées l’une de l’autre ; les équations sont très simples donc ne révèlent rien ni sur les proies ni sur les prédateurs. Elles indiquent juste que les prédateurs mangent les proies. Faisant abstraction des propriétés écologiques de ceux-ci, de telles courbes peuvent s’appliquer pour toutes les espèces liées par une relation proies-prédateurs. Mais les équations de Lotka-Volterra, en revanche, ne permettent pas de prédictions sur des espèces précises. Richard Levins soutient donc qu’on aura toujours à peser le réalisme, la généralité et la précision comme valeurs épistémiques distinctes ; et ensuite, il argue qu’il y aura toujours des compromis à faire entre ces trois valeurs dès qu’on veut modéliser un système et sa dynamique.
Un philosophe pourrait ainsi se demander si un modèle général est plus vrai qu’un modèle réaliste. Si les deux modèles sont élaborés raisonnablement, cette question n’a pas grand sens. Les philosophes des sciences sont plus sensibles aux questions de choix de modèles ou de choix de valeur épistémique. Les théoriciens de la connaissance, eux, seront intéressés par le sens des mots « vérité » et « savoir ». Or quand on rentre dans les théories scientifiques, les choses sont beaucoup plus compliquées que l’affrontement vrai vs faux. Les approches incluant un grand nombre de données emmènent vers des modèles plus prédictifs et précis, mais éloignent des modèles réalistes et surtout des modèles généraux. Ainsi, on s’écarterait de plus en plus de l’ambition d’une théorie générale du fonctionnement des écosystèmes ou d’une théorie générale des relations de compétition ou de prédation. La prédiction peut éloigner de la description réaliste ou générale, c’est une leçon épistémologique issue de l’écologie théorique que j’essaye d’appliquer dans le livre.
Donc, si on revient à la notion de profilage, les algorithmes de recommandation sur les sites d’entertainment, les algorithmes de distribution des images et des posts sur Facebook ou Twitter, etc. se rapprochent de ce que le philosophe canadien Ian Hacking (qui vient de disparaître) appelait les « looping kind » (les genres bouclant). Cet auteur a réfléchi à la question de la classification en général. Selon lui, une classification des personnes ne saurait être anodine. En effet, si la taxinomie des montagnes par exemple (montagnes jeunes, montagnes anciennes, monts… etc.) n’a aucun effet sur celles-ci, ce n’est pas le cas pour ce qui est des humains (classés en gentils, schizophrènes, autistes, etc.). Selon sa place dans une classification, une personne se verra assigner des parcours et des droits différents. Selon Hacking, le looping kind décrit la relation entre les classes, les classifications et le comportement de ce qu’on classe lorsqu’il s’agit d’humains. La classification d’une chose par le savant va en effet changer la chose classée, et par conséquent va altérer en retour la classification. Pensons ici à l’étiquetage « schizophrène » ou « autiste » : il induit des conséquences dans les interactions entre l’individu ainsi classé et ses congénères, donc une transformation de cet individu lui-même ; un livre du sociologue Robert Barett, La traite des fous. La construction sociale de la schizophrénie (tr.fr. Paris 1989), montrait très bien ceci à partir de l’ethnographie d’un hôpital psychiatrique.
Or, avec le profilage, il se passe à peu près la même chose. La manière dont les gens sont profilés aura des conséquences sur la façon dont les algorithmes en général ou les algorithmes de recommandation en particulier vont les traiter. Ainsi de ce phénomène aujourd’hui bien connu que la littérature appelle la polarisation, magnifié par les réseaux sociaux : les individus vont dire et émettre des opinions de plus en plus extrêmes dans un sens ou dans un autre, parce que ce qu’ils voient sur les réseaux sociaux leur est propre. Chaque personne sur les réseaux verra donc le monde en fonction de sa famille, de ses amis et connaissances, donc chacun sera exposé à des choses très différentes, même sur des sites d’information reconnus. Néanmoins, chacun aura l’impression que cela est objectif et que la chose lue ou vue est la vérité. David Chavalarias a récemment très bien expliqué l’ancrage de ces mécanismes dans les particularités des algorithmes divers présidant à la distribution des contenus sur les réseaux sociaux ou Google et YouTube (Toxic Data, Paris, 2022).
Voyons ici un autre exemple classique : l’histoire de Cambridge Analytica. Cette société britannique dite d’Intelligence (en anglais) a récupéré plus ou moins frauduleusement des dizaines de millions de comptes Facebook. À partir de cela, elle a conçu des prédictions des potentiels votes au sujet du Brexit, si l’on supposait les votants exposés à certaines informations et images. Ils ont donc isolé des profils dont on pouvait penser qu’ils pourraient voter pour le Brexit, ils ont soumis leurs porteurs à des fake news et surtout ils les ont confrontés à de faux profils adéquatement construits (ce qu’on nomme l’astroturfin — Toxic Data, ici encore, raconte en détail cette histoire.). Grâce à ce déferlement ciblé de faux profils, les Britanniques ont voté majoritairement pour le Brexit. On ne sait pas si les sujets étaient pro-Bexit ou non au moment où on a eu des informations sur eux, peut-être que non. En fait, la question de leurs « vraies » opinions politiques n’a pas de sens. Du point de vue de l’algorithme, seule l’efficacité compte : c’est-à-dire viser quelqu’un, ou plutôt un collectif d’individus comparables, et le faire voter le Brexit. Et cela marche très bien.
C’est la raison pour laquelle, dans le livre ou ailleurs, je soutiens que la vérité dans ces systèmes-là n’est plus vraiment une norme. Les philosophes disent en général que la vérité est la norme de la croyance, ce qui signifie minimalement cette chose élémentaire : lorsque je tiens pour vraie (= crois) une proposition, je dois cesser d’y croire si elle se révèle fausse. Mais dans les systèmes de profilage, le système ne se « demande » pas si telle personne va voter le Brexit ; disons plutôt que système tourne afin qu’une telle personne vote avec tous ses semblables en profil pour le Brexit, peu importe ses croyances initiales, peu importe si un système de pure analyse détectait, ou pas, un futur vote de cette personne pour le Brexit. On a là exactement ces nudges dont je parlais, et on mesure la puissance des environnements algorithmiques pour déployer des nudges d’une redoutable efficacité.
Continuons avec cette affaire de faux comptes ; dans le livre je parle de ce que certains experts appellent joliment « l’Inversion », ce moment où, dans l’Internet, la plupart des contenus et des usagers n’existeront en réalité pas, où pour dire vite l’irréel supplantera donc le réel. Actuellement, si vous piochez au hasard sur Internet le site d’une entreprise et cliquez sur la rubrique « Qui sommes-nous ? », vous verrez des photos et des noms d’individus accompagnés de la mention de leur fonction dans l’organigramme. La plupart de ces gens n’existent pas ; ce sont de fausses photos. Il existe en effet des sites où acheter des milliers de fausses photos indiscernables des vraies (produites avec Midjourney par exemple). Et bientôt les photos qui semblent fausses seront les seules authentiques. Et donc oui, la question importante n’est pas du tout « est-ce que ce sont des vraies photos ? » ou « est-ce que ce sont des personnes réelles ? ». Il faudra plutôt se demander « qui est derrière la fabrication de ces sites faits pour convaincre un maximum de gens ? ». Tout se passe comme si Cambridge Analytica et les milliers de votes Brexit qu’elle a initiés grâce à leur profilage et au ciblage par astroturfing constituaient une expérimentation en modèle réduit de ce que nous vivrons, de cette exposition constante à du faux, à ce que Platon appelait des simulacres, soit des copies de copies (une photo est une copie, une fausse photo, une copie de copie…)..
« Que se passe-t-il quand cette inflation de simulacres envahit la réalité ? » C’est la question que nous pose maintenant GPT et plus largement les Intelligences Artificielles Génératives. Il existe beaucoup de plugins disponibles capables de créer à partir de prompts de nombreux sites Internet. GPT4 peut ouvrir 50 sites en 2 heures, mais qui ne reposent sur aucune réalité. Si vous le demandez, GPT4 montera ainsi un commerce de paniers de basket, son business plan, concevra des sites de vente d’équipements de basket, égrènera la liste des membres d’une équipe de basket inexistante, accompagnée des photos correspondantes, des noms des joueurs (inventés), etc. À la fin, les personnes pourront cliquer, acheter et payer, mais ne recevront évidemment pas leur panier… et au fait, qui pourra être poursuivi pour arnaque ? Il y a une sorte de découplage entre le monde réel et l’autre monde construit par des intelligences artificielles.
Quels sont, selon vous, les sujets de recherche à venir à l’intersection de la philosophie et de l’intelligence artificielle ?
Alors il y en a beaucoup, qui tournent autour de la définition de ce qu’est un grand modèle de langage, autour de l’intelligence artificielle générative. Mais il me semble qu’il faut travailler sur des points un peu plus précis que les questions très générales de la conscience des machines et leur intelligence. Il faudrait poser la question sur ce que les machines savent et surtout sur le sens à donner au mot « savoir ».
On se demande certes si GPT pense, si GPT est intelligent. L’ennui, c’est qu’en philosophie, nombre de termes sont eux-mêmes des questions et le mot « savoir » en fait partie. La conception philosophique du mot « savoir » est multiple. Or, si on ne saisit pas ce que le mot « savoir » veut dire, on aura du mal à décider si « GPT sait quelque chose ». Plus exactement, la réponse à la question de savoir ce que sait GPT va dépendre de la conception philosophique qu’on a du mot « savoir ».
Il est intéressant ici de rappeler la théorie de Wittgenstein en philosophie de la signification ; cette théorie n’est pas majoritaire, mais est vivement discutée. Selon elle, la signification d’un mot s’identifie à son usage. Ainsi, le mot « table » signifie l’ensemble des usages du mot table (dresser la table, manger sur la table, apporter une table, faire des tables de multiplication, etc.). Pour GPT, le mot « table » c’est l’ensemble des occurrences du mot « table » dans la totalité de ces usages, dans les milliards de textes où il a été interrogé. Dans ce cas-là, selon ce courant wittgensteinien, on peut arriver à la conclusion que « GPT sait » quelque chose à propos de la table. Selon d’autres théories de la signification, on ne pourra pas donner un sens à l’idée que GPT sait quelque chose parce que GPT ne sort pas des mots, tandis que la signification suppose un référent du terme. Doit-on donc procéder à un tri des théories de la signification, selon leur effet, sur la possible « connaissance » des référents des mots par GPT ? C’est un premier problème philosophique.
Alors évidemment, on rencontre aussi bien des problèmes éthiques. Dans son ouvrage, La fin de l’exception humaine, Jean-Marie Schaeffer expliquait une tendance qui existe depuis une vingtaine d’années en biologie et qui consiste à étendre le sens de mots très humains à certains animaux non humains, au-delà même des primates et des mammifères. Ainsi, certains biologistes, dont Etienne Danchin, pensent que les membres de la faune ont une certaine culture, la culture résultant d’un apprentissage social. Des expériences ont été réalisées au cours desquelles on montre à un poisson femelle une autre qui, au lieu de s’accoupler avec le poisson dominant mâle, va s’apparier à un poisson de moindre rang. Le poisson femelle à son tour copiera ce comportement, à rebours de ce qui est attendu par la génétique. De ce fait, ce poisson est considéré comme doté d’une capacité à l’apprentissage social et donc d’une certaine culture. Beaucoup d’autres travaux arrivent à cette conclusion. Ainsi, il a été montré que les chants d’oiseaux de la même espèce vont dépendre du coin de forêt dans lequel ils sont, et visiblement les oiseaux transmettent des mélodies de génération en génération. Le moineau n’aura pas le même type de chant s’il vit dans la forêt de Meudon ou dans la forêt de Brocéliande. Ceci est considéré par des écologues comportementaux comme relevant en un sens de la culture.
En anglais existe le mot ''sentience'' qui dit la sensation comme le sentiment de soi, de la douleur ou du plaisir. Des travaux récents étendent cette sentience non seulement aux primates et aux mammifères, mais aussi aux poissons et même aux insectes, comme y insiste depuis quelques années le philosophe Jonathan Birch, travaillant étroitement avec des biologistes qui mènent ces recherches. Au fond, certains termes auparavant réservés aux humains comme les mots, rationalité, culture, sentiment, connaissance, etc., pourraient aussi bien s’appliquer à nombre d’animaux non humains.
Si l’on adopte une vision un peu inclusive de ces choses, on serait tenté d’englober les intelligences artificielles dans cet élargissement. Au lieu de se demander si ces intelligences artificielles sont comme les humains ou si elles pensent comme les humains, il faudrait alors se demander où se place telle intelligence artificielle dans la grande famille des intelligences. C’est une autre manière de poser la question que de la décentrer par rapport aux humains, avec Jonathan Birch par exemple.
Mais une troisième question me semble aussi assez importante, celle de ce qu’on appellerait en anglais l’accountability de l’intelligence artificielle. On prendra ici l’exemple de l’évaluation des propositions d’articles académiques en vue de publication, puisque ça m’est très familier.
Le monde académique vit depuis longtemps une surcharge d’articles publiés et surtout de manuscrits soumis à publication. Selon un rédacteur de revue scientifique, même en philosophie, une discipline concernée seulement par quelques dizaines de revues, on rencontre cette inflation. De telles revues reçoivent près de 3 000 articles par an, c’est un très grand nombre de propositions, lesquelles ne peuvent pas toutes être expertisées. Certains revendiquent alors de confier l’évaluation de ces articles à de grands modèles de langage. En un sens, ce procédé est meilleur que le tri a priori des articles selon leur provenance. En effet, des biais affectent les évaluations faites par les humains. Ainsi, un article d’un chercheur de Princeton aura plus de chances d’être envoyé à un évaluateur par le rédacteur (editor) de la revue que celui d’un chercheur d’une université d’État de Manille par exemple, ou même de l’université de Besançon. Beaucoup d’entre nous pensent que les biais seront moins nombreux si l’on recourt à une intelligence artificielle, laquelle se voit donc dotée d’un caractère inclusif. Les auteurs des manuscrits soumis peuvent ne pas accepter que leur article soit évalué par une intelligence artificielle. Pourtant, on ne saurait écarter l’hypothèse que ces évaluations d’articles seraient mieux exécutées par une telle intelligence artificielle, simplement parce que les humains qui les effectuent manquent de temps, et aussi parce que la personne sollicitée pour l’évaluation peut souvent s’avérer bien éloignée de l’expertise du sujet.
Mais cette solution peut légitimement créer un malaise parce que, jusqu’à un certain point, l’intelligence artificielle n’est pas directement responsable, ne peut pas réellement être tenue pour responsable ou accountable for ; elle ne saurait répondre d’une recommandation de rejet ou d’acceptation d’un article. Et cette situation fait écho en philosophie au mythe de l’écriture dans le Phèdre de Platon, qu’on évoque traditionnellement face aux personnes rétives aux innovations technologiques. Lorsque le Dieu Theuth a apporté l’écriture aux hommes, écrit Platon, il y aurait eu des résistances et des réflexions contre cette nouveauté, parce que dans l’écriture il se joue une délégation au papier de ce qu’énonce la personne. Face à un livre, il n’y a personne à qui l’on peut poser des questions, du fait de l’absence de l’auteur dans le livre même, laquelle est consubstantielle au principe même de l’écriture : celle-ci se lit, même si l’auteur s’éclipse, même s’il est mort depuis longtemps. Or, ce n’est pas le cas dans la parole et la conversation, dans lesquelles on peut poser directement des questions à un locuteur qui répondra de ce qu’il dit, et donnera les raisons de ses énoncés. Et selon Platon cela explique que l’écriture puisse être considérée comme une grande décadence.
Le lien avec ce dont on parle aujourd’hui est clair : dans un tel raisonnement platonicien, on insiste sur la responsabilité pour ce qu’on dit et l’engagement dans ce qu’on dit. Et si les intelligences artificielles ne peuvent pas être tenues directement responsables d’une évaluation de manuscrits, comment cela peut-il se passer dans d’autres situations ? Par exemple, lorsque deux voitures connectées circulent ? Elles vont probablement mieux conduire que la plupart des gens, du moins leurs performances seront et sont déjà manifestement au-dessus de la moyenne des conducteurs, mais qu’en sera-t-il des questions de responsabilité en cas d’accident ? Doit-on disqualifier ces usages des intelligences artificielles pour ces raisons de responsabilité et d’imputabilité ? Ou bien, faut-il repenser les concepts d’accountability, d’imputabilité ou de responsabilité à l’aune de ces problèmes ? Cela me paraît une question philosophique majeure soulevée par l’avènement des LLM, des IA génératives, et même de l’IA en général.