Peinture bleue représentant une intelligence artificielle créant quelque chose sur la planète Mars
DALL-E : AI creating something in planet Mars
Recherche

IA génératives et création : quels enjeux juridiques?

En partenariat avec l'Observatoire de l'Intelligence artificielle de Paris 1 et l'Institut de recherche juridique de la Sorbonne (IRJS), a été organisée le 27 mars 2023 par les professeurs Célia Zolynski et Édouard Treppoz la conférence «Intelligences artificielles génératives et création : quels enjeux juridiques?».

Cette conférence portait sur les différents usages des systèmes d’Intelligence Artificielle (IA) génératifs dans le domaine de la création. Ce thème soulève de nombreux questionnements importants aussi bien au stade des inputs concernant les enjeux de Text and Data Mining que des outputs relatifs aux enjeux pour les créateurs et le droit d’auteur. Enfin, à l’heure de ChatGPT, le sujet soulève des enjeux d’éthique.

Ce compte rendu a été réalisé par les étudiants du Master II Droit de la création et du numérique de l’université Paris 1 Panthéon-Sorbonne. C'est une synthèse non exhaustive des débats. Seul le prononcé des intervenants fait foi. Les captations vidéos de certaines interventions sont disponibles à la fin de chaque paragraphe de présentation.

IA GÉNÉRATIVES ET CRÉATION : QUÉSACO ?

Ouverture : Camille Salinesi, Professeur d’informatique et vice-président des relations internationales, université Paris 1 Panthéon-Sorbonne

Avant de se pencher sur des réflexions juridiques, éthiques et philosophiques, il faut tout d’abord comprendre le fonctionnement des IA génératives ainsi que leurs enjeux techniques.

La diversité des IA génératives

Bien que les systèmes d’apprentissage automatique (« machine learning ») sont les plus communément discutés, particulièrement récemment sous l’angle du chatbot lancé par la société OpenAI « ChatGPT », il convient de garder à l'esprit que l'intelligence artificielle comporte de nombreux autres sous-domaines. En matière d’IA génératives, les systèmes basés sur les techniques d'apprentissage sont capables de générer entre autres des textes, des images (animées ou non), des sons, des vidéos1. Peuvent être cités les services d’IA génératives commercialisés suivants :

  • Texte : ChatGPT, Github, Copilot ; 
  • Images : Midjourney, DALL-E, Stable Diffusion, Firefly ; 
  • Musique : Flow Machines, Riffusion, MusicLM. 

Les systèmes d'IA génératives permettent de nombreux usages, au premier rang desquels la création artistique. D'autres usages sont possibles, allant de la production de documents techniques, ou même de lettres de motivation personnalisées à partir de demandes spécifiques et d’informations fournies à l’IA. Il est par ailleurs possible de combiner les IA génératives. On peut par exemple générer la lecture d'un texte lui même généré, par une voix imitant une voix réelle et combinée à la vidéo d'un locuteur, créant ainsi un degré de réalisme saisissant.

Les enjeux relatifs à la production d’œuvres (images/ vidéos)

Malgré le travail humain fourni, la question qui se pose est celle de savoir si l’œuvre produite par ou à l’aide d’un système d’IA peut être considérée comme une production artistique originale. Se pose également la question des éléments utilisés par l’IA afin de générer cette œuvre, ceux-ci étant susceptibles d’être protégés par des mécanismes de propriété intellectuelle. Certaines œuvres générées par l’IA imitent un style préexistant alors que d’autres sont susceptibles de présenter un caractère plus original.

Les dangers des IA génératives 

Les transcriptions, les complications, les synthèses ou les traductions générées par des IA génératives peuvent engendrer des risques en termes de reproduction (plagiat, abus, vol de marque, phishing) mais aussi de fake news, cyberattaque, influence, politique, dark marketing. Concernant les deep fakes, le degré de réalisme des images et des voix est particulièrement efficace et dangereux. Par exemple, il suffit de quelques dizaines de secondes d'enregistrement audio pour imiter la voix de quelqu’un. Pour l’instant certaines erreurs récurrentes encore présentes dans les contenus générés permettent de les repérer assez facilement. Toutefois, ces erreurs sont susceptibles d’être rapidement résolues et les deep fakes sont de plus en plus difficiles à distinguer.

Les méthodes d'entraînement des systèmes d’IA génératives

Les IA génératives reposent sur des dispositifs algorithmiques d'apprentissage entraînés au moyen de grandes collections de données. Il convient de distinguer deux grandes familles : les approches d'apprentissage supervisé (i), et non supervisé (ii).

i. Intelligences artificielles de type apprentissage supervisé

Les IA supervisées fonctionnent en deux phases : la phase d'entraînement et la phase de test. Le principe est le suivant : le système est entraîné par des données d'entraînement en quantité importante associées à des labels correspondants afin qu’elles génèrent ensuite des données de sortie proches des données d’origine. Les exemples de données de sortie (output) attendues fournies à l’IA permettent de guider le système en réduisant la marge de différence entre ce qu’il génère et ce qui est attendu. 

Un exemple d'entraînement de système tendant à fournir des inputs afin de générer des outputs recherchés est celui des modèles de comportement. Les données produites étant le résultat des données d'entraînement, il est possible de superviser l’IA par la mise en place de règles afin de déterminer quelle est la forme de sortie attendue et quelles actions ne sont pas autorisées.

ii. Intelligences artificielles de type apprentissage non supervisé

Les IA non supervisées permettent de répondre à des instructions précises en exécutant des tâches sans qu’un output type ne soit fourni. Il s’agit alors de combiner un ensemble de données correspondant à des séquences, notamment des séquences de mots pour les IA de traitement de texte, afin de prévoir des probabilités de séquences et générer de nouveaux résultats. Cette analyse a pu se faire par le théorème des probabilités conditionnelles (Théorème de Bayes) permettant de prédire une probabilité en fonction de la réalisation ou non d’un événement. En principe, dans ce modèle, les hypothèses sont indépendantes les unes des autres, alors que pour le traitement de texte, l'hypothèse est différente dans la mesure où la langue suit des schémas, les séquences de phrase sont dépendantes les unes des autres puisqu’elles respectent une grammaire et une syntaxe. Aujourd’hui, les systèmes d’IA reposent généralement sur une approche probabiliste et sur des statistiques de masses de données importantes à partir de données d'entraînement qui sont analysées afin de construire un modèle de langage. Cette méthode ne nécessite pas de données de sortie « types » étiquetées. 

Les enjeux relatifs aux méthodes d'apprentissage 

Ces méthodes d’apprentissage soulèvent de nombreux enjeux et questionnements, notamment tenant aux règles d’entraînement, à leurs sources, à leur mise en place, aux types de données sélectionnées pour l'entraînement ainsi qu’à l’individu ou l’entité décidant de ces paramètres. On peut également se demander si les exemples d'entraînement définissant le modèle de comportement sont empreints d’objectifs économiques ou politiques.

Des questions se posent également au stade de la collecte des données, au regard des droits d’exploiter les données, de l’actualité de celles-ci, mais également de la protection et de la garantie de conformité des documents et contenus fournis au système d’IA dans le cas de documents confidentiels. Il est essentiel de savoir à qui les inputs entrés par l’utilisateur sont accessibles ou s’ils sont susceptibles d’être revendus ou diffusés.

Il est alors nécessaire de procéder à une analyse sémantique et générale de l’écosystème se construisant autour d’IA génératives telles que ChatGPT en envisageant les intentions des utilisateurs ainsi que les différents enjeux touchant à la fois les clients, les partenaires, les observateurs de ce type de systèmes.

Le poids environnemental de l’IA

Que ce soit par les enjeux environnementaux de la conservation des données ou par le modèle de l’IA lui-même, ces systèmes sont des consommateurs massifs de matériel et d’énergie. Malgré l’apport que l’IA peut avoir pour la recherche écologique (pour des domaines spécifiques tels que l’optimisation de la consommation en aviation par exemple), l’impact colossal de l’informatique sur l’environnement impose d’adopter une approche systémique qui, pour l’instant, n’est pas encore présente malgré de premières annonces d’initiatives.

(1) En matière de phonogramme notamment, certaines IA sont spécialisées dans la production musicale, d’autres systèmes d’IA génératives sont spécialisés dans la génération de textes, notamment de code informatique.

⇒ La présentation vidéo de la partie introductive
 

"LES INPUT : LES ENJEUX DU TEXT AND DATA MINING" (table ronde)

Présentation : Edouard Treppoz, Professeur de droit, université Paris 1 Panthéon-Sorbonne 

Panélistes

  • Arnaud Robert, Secrétaire général, Groupe Hachette Livre 
  • Noémie Enser, Avocat, Cabinet Vercken et Gaullier

Animation : Tristan Azzi, Professeur de droit, université Paris 1 Panthéon-Sorbonne

Cette première table ronde visait à l’appréhension par le droit d’auteur des actes de fouilles accomplis par l’IA générative et l’exception du Text and Data Mining (TDM). Le TDM est le processus d'extraction d'informations à partir de matériel lu par une machine. Il fonctionne en copiant de grandes quantités de matériel, en extrayant les données et en les recombinant pour identifier des modèles.

L’application du droit d’auteur aux copies effectuées par l’IA générative

En vue de produire du texte ou des images, l’IA générative doit ingérer de nombreuses données parmi lesquelles peuvent figurer des contenus protégés par droit d’auteur. Afin de pouvoir exploiter ces œuvres sous forme de données, l’IA générative réalise des copies provisoires. Dès lors, il convient de se demander si les copies effectuées au sein des IA génératives constituent des actes de reproduction au sens du droit d’auteur et nécessitent, le cas échéant, l’autorisation de l’auteur.

Contrairement au droit français, le droit de reproduction au sens du droit européen n’implique aucun acte ultérieur de communication au public2. Dès lors, la copie faite au sein d’une IA générative pourrait constituer un acte de reproduction, bien que la question soit encore ouverte. En conséquence, la question se pose de savoir si l’exception de TDM (équivalant à la fouille de textes et de données en français) introduite par le droit européen s’applique aux reproductions effectuées au sein des IA génératives.

Dans un premier temps, la réponse européenne a été de considérer qu’il fallait autoriser les fouilles de textes dans le cadre des IA classiques. Pour rappel, la directive (UE) 2019/790  du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique et modifiant les directives 96/9/CE et 2001/29/CE dite directive DAMUN définit la fouille de textes et de données comme étant « toute technique d’analyse automatisée visant à analyser des textes et des données sous une forme numérique afin d’en dégager des informations, ce qui comprend, à titre non exhaustif, des constantes, des tendances et des corrélations »3. Ladite directive oblige les États membres à prévoir au sein de leur législation cette exception de TDM, d’une part, au profit des organismes et institutions du patrimoine culturel à des fins de recherches scientifiques4, et d’autre part, de manière générale à toutes fins bénéficiant à toutes personnes5.

Dans un deuxième temps, la réponse est moins certaine concernant l’application de l’exception de TDM aux IA génératives. Au regard du considérant 18 de la directive DAMUN, cette exception semble avoir été créée pour des IA opérants à des fins statistiques et dont la conservation des copies est possible pendant toute la durée nécessaire aux fins de cette fouille de textes et de données. Or dans une IA générative, la conservation de ces données doit être infinie puisqu’elle doit constamment apprendre de ces derniers pour pouvoir répondre aux requêtes.

Les conditions de l’exception de TDM

Afin de bénéficier de cette exception de TDM, les articles 3 et 4 de la directive DAMUN posent un certain nombre de conditions. 

  • Tout d’abord, les deux articles prévoient la nécessaire licéité de l’accès à l'œuvre. Cette condition appelle un certain nombre de questions complexes, à savoir : comment déterminer si cet accès a effectivement été licite ? Comment la Cour de Justice de l’Union européenne va-t-elle appréhender cette condition de licéité ? 
  • L’article 3 dudit texte prévoit par ailleurs la nécessité de stocker la copie avec un niveau de sécurité approprié. Cependant, qui est capable de juger d’un niveau de sécurité approprié ? En outre, cet article prévoit également la destruction de la copie à l’issue de la fouille, mais comment vérifier l’effectivité de cette destruction ? 
  • Enfin, l’article 4 de la directive DAMUN envisage, quant à lui, la condition d’absence d’opposition par le titulaire de droit, autrement appelé mécanisme d’opt-out. Il permet aux titulaires de droits de s’opposer de manière discrétionnaire à la fouille de textes sur leurs œuvres. Toutefois, ce mécanisme soulève également un certain nombre d'interrogations. En effet, quel type de procédé va pouvoir être mis en œuvre pour rendre ce mécanisme lisible par la machine ? Ce procédé sera-t-il fiable ? Comment savoir si l'œuvre a effectivement été retirée des bases et comment le prouver ? Comment l'exécution de l’opt-out va-t-il pouvoir être contrôlée en pratique ? 

Les réponses apportées permettront de sécuriser, ou non, la logique de ce mécanisme d’opt-out. Afin d’illustrer concrètement ce mécanisme d’opt-out, la société Hachette a par exemple eu l’occasion de modifier ses contrats de distribution e-book avec les grands opérateurs (Google, Amazon, etc.) afin de leur interdire de réaliser des opérations d’IA sur le corpus de texte d’e-book dont ils disposent en intégralité. En outre, la société crée actuellement des dispositifs de réservation de droits lisibles par la machine qui visent à protéger leurs contenus librement accessibles. 

L’application du fair use ?

Aux États-Unis, la question se pose de savoir si les reproductions d'œuvres au sein des IA génératives pourraient être appréciées au travers de l’exception du fair use. À ce titre, une class action très récente menée par les artistes Andersen, McKernan et Ortiz à l’encontre de Midjourney et de Stability AI donnera l’application du fair use sur le marché des œuvres créatives.

Le triple test

Enfin, le débat s’est orienté vers la conformité de l’exception du TDM au triple test du droit européen. Pour rappel, le triple test prévoit que les exceptions prévues au droit d’auteur ne peuvent porter atteinte à l’exploitation normale de l'œuvre, ni causer un préjudice injustifié aux intérêts des titulaires de droits. La directive DAMUN semble se positionner implicitement vis-à-vis de l’article 3 vers une absence de préjudice. Or, qu’en est-il de l’article 4 et des IA génératives ? L’exception de TDM au sein des IA génératives ne porte-t-elle pas atteinte à l’exploitation normale de l'œuvre et ne cause-t-elle pas un préjudice injustifié aux auteurs ?

(2) Directive 2001/29/CE du Parlement européen et du Conseil du 22 mai 2001 sur l'harmonisation de certains aspects du droit d'auteur et des droits voisins dans la société de l'information, art. 2.

(3) Directive 2019/790 du Parlement européen et du Conseil du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique et modifiant les directives 96/9/CE et 2001/29/CE, art. 2 - 2.

(4) Directive 2019/790 du Parlement européen et du Conseil du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique et modifiant les directives 96/9/CE et 2001/29/CE, article 3 - 1.

(5) Directive 2019/790 du Parlement européen et du Conseil du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique et modifiant les directives 96/9/CE et 2001/29/CE, art. 4 -1. 

⇒ La captation vidéo de la table ronde sur la table ronde "Les input : les enjeux du text and data mining".

"LES OUTPUT : QUELS ENJEUX POUR LES CRÉATEURS ET LE DROIT D'AUTEUR ?" (table ronde)

Présentation : Jane C. Ginsburg, Professeur de droit, Columbia Law School

Panélistes

  • Stéphanie Le Cam, Maître de conférences en droit, Université de Rennes 2 
  • Thierry Maillard, Directeur juridique, ADAGP (Société des auteurs dans les arts graphiques et plastiques) 
  • Loïc Imberti, Commissaire-Priseur, DANAE.IO 
  • Stephan Breuer, Artiste et co-fondateur, Amor Mundi

Animation : Joëlle Farchy, Professeur d'info-com, université Paris 1 Panthéon-Sorbonne

Introduction

Cette table ronde a été l’occasion de se pencher sur les enjeux pour les créateurs de la recommandation des œuvres sur les services en ligne aux usagers. Pour appréhender cette question, il faut revenir à la relation entre humain et machine dans le champ du droit d’auteur.

Pour qualifier une création d'œuvre protégée par le droit d’auteur, il convient d’évaluer la présence de l’humain dans le processus de création. L’exemple du singe qui se prend en photographie en est un exemple concret : Facebook a refusé la protection par le droit d’auteur au motif que le singe s’est lui-même pris en photographie. Cependant, la même photographie exposée dans une galerie a été protégée, car il a été considéré que l’humain a tout de même suffisamment agencé l’image et a donc eu un rôle actif dans la création.

Depuis 1884, le rôle de l’humain dans la création se détermine largement. On peut citer notamment la décision de la Cour Suprême des États-Unis concernant le photographe Burrow-Giles6 qui énonce que la photographie est l’écrit d’un auteur, car elle vient de la conception du photographe qui a agencé le sujet de la photo (lumière, mise en scène etc). Cette façon de raisonner sur le rapport entre l’homme et la machine a été reprise en Europe dans l’affaire Painer7: la machine est nécessaire à la création, mais il y a un apport humain qui résulte en la création d’une œuvre de l’esprit. L’apport humain a par ailleurs été considéré comme insuffisant dans le cadre d’une affaire Kelley v. Chicago en 2011 concernant une sculpture faite de fleurs sauvages. Cette sculpture a été jugée comme étant plutôt le fruit du hasard, non contrôlée par l'artiste. La qualité d’auteur dépend de la conception et de l’exécution de l'œuvre. La conception est plus qu'une idée : elle recouvre les éléments essentiels de l'œuvre et l’exécution requiert un certain contrôle sur le processus de création. Cela n'exclut pas tout aléa dans la création, mais dans l’ensemble, pour être qualifiée d’auteur, la personne en question doit exercer un contrôle sur le processus de création.

La qualification d’auteur

En appliquant ces principes aux sorties de l’IA, on peut se poser plusieurs questions, notamment celle de savoir s’il suffit – pour être auteur – de donner des instructions à la machine. Un autre problème est que la machine ne répond pas toujours à ce qu’on lui demande de faire. Parfois, elle se trompe ou ne comprend pas et les sorties ne correspondent pas à la demande. Dans l’affaire Zarya of the Dawn8 concernant une bande dessinée dont les illustrations ont été générées par une IA, l’auteur a travaillé avec le programme MidJourney, une intelligence artificielle. Sa qualité d’auteur a été remise en question par le U.S Copyright Office qui a reconnu un droit d’auteur sur le texte et sur la sélection et l’organisation des images issues de l’IA générative, mais pas pour les images en tant que telles, car l’auteur donne simplement des commandes à la machine sans pouvoir contrôler la sortie des images.

L’utilisation des intelligences artificielles génératives peut également poser des problèmes en termes de contrôle et de biais. L’artiste n’a pas de contrôle sur la sortie générée par une IA. Celle-ci ne va parfois pas correspondre à la volonté de ce dernier. Dès lors, il est complexe d’accorder la qualité d’auteur sur une œuvre qui ne correspond pas à la volonté créatrice. Sur la question des biais, l’expérience a été faite de donner comme instruction au programme MidJourney des intellectuels au café de Flore – sans distinction de genre – ce qui a donné naissance à une image entièrement composée d’hommes.

La gestion des droits

D’un point de vue de la gestion des droits, la question se situe sur l’existence d’un titulaire de droit. La gestion des créations en elles-mêmes n’est guère problématique, dès qu’on a une création en forme d'art visuel, les organismes de gestion collective sauraient la gérer. La vraie difficulté est de savoir si on a un titulaire de droit derrière l'œuvre. En effet, l’article L. 321 du Code de propriété intellectuelle prévoit qu’un organisme de gestion collective peut gérer les droits d’auteur ou droits voisins sur une œuvre à condition qu’il y ait un titulaire de droit (titulaire, ayant-droit ou cessionnaire).

On a de nombreux exemples dans l’art de créations qui nécessitent une machine telle que l’art fractal. Il ne faudrait pas remettre en question les droits d’un artiste sur sa création dès lors qu’il a utilisé des outils technologiques. Cependant, il n’y a pas de grande difficulté à gérer les œuvres très conceptuelles. La difficulté se trouve plutôt concernant les artistes qui avaient un processus artistique et dont les œuvres sont utilisées par l’intelligence artificielle ou la concurrence. Il s’agit de la question de fond du partage entre les œuvres créées par les humains et les machines. Dans la fouille réalisée par ces systèmes d’IA, on a des corpus gigantesques qui utilisent des œuvres protégées pour venir concurrencer le marché des artistes, ce qui donne lieu à des œuvres moins chères et risque de diminuer la rémunération des artistes.

L’impact sur le marché du livre

Deux types d’impacts sont observés concernant le marché du livre. 

  • Le premier concerne les conséquences économiques à tendance positive. L’intelligence artificielle va apporter de l’efficacité et donc des économies en termes de temps de travail pour l’éditeur (cependant une économie pour l’éditeur est également une perte pour l’auteur). La couverture d’un livre faite par un humain représente un coût entre 500 et 1 000 euros pour une quinzaine de jours de travail tandis que le programme MidJourney ne mettra que quelques heures et reviendra approximativement à 20 euros.  
  • Le second est l’impact sociétal. L’intelligence artificielle n’est pas intelligente, elle possède des bugs et des biais, elle est nourrie de stéréotypes sociaux, il serait dangereux de se reposer sur ces machines d’autant plus que le métier d’illustrateur en serait fortement impacté. En effet, une étude a montré que 19% des travailleurs pourraient voir plus de 50% de leurs tâches impactées par l’IA.

Le marché de l’intelligence artificielle générative

On craint une utilisation de la machine à outrance et la fin d’une richesse artistique humaine, cette inquiétude n'est pas nouvelle. En matière d’IA générative, le marché a fait grand bruit au travers de deux affaires. La première, en 2018, concerne un portrait de style XVIIIe, créé par le machine learning, ensuite imprimé et disposé chez Christie's dans une exposition pour une vente aux enchères. Elle a été estimée entre 30 000 et 40 000 euros. La deuxième affaire concernait Jason Allen qui a passé plus de 80 heures sur son œuvre pour trouver un prompt final, puis la nettoyer, la photoshoper et la redisposer. Cette œuvre a remporté un prix ce qui, pour Allen, prouve que l'intelligence artificielle venait accomplir l’artiste.

Tout recours à la technologie rend le geste artistique moins légitime. Dès le XVe siècle, on craint la machine avec l’avènement de la gravure. La vraie question est celle de la paternité de l'œuvre. Peut-on mettre un artiste derrière l’intelligence artificielle ? Un artiste peut toujours  – dans un travail créatif – utiliser la machine. Ce qui compte, c’est l’idée. On peut ici citer les œuvres de Duchamp qui sont de l’ordre du concept. La question se pose surtout pour le moment venu où l’IA se passera du créateur et de l’artiste.

Le lien entre l’artiste et le matériau

Le questionnement sur l'œuvre et la création pourrait se porter sur l’interaction entre l’auteur et le matériau qu’il utilise. Quand on travaille sur une toile, parfois il se passe des choses qu’on ne comprend pas nécessairement ou du moins qu’on ne peut pas prévoir. Il y a toujours une part de la création qui n’est pas contrôlée par l’auteur. Cependant le copyright exclut en principe tout aléa bien que dans les faits, si un aléa se produit et que l’auteur l’accepte, cet aléa devient sien. L’idée est que dans l’ensemble l’artiste doit être la cause du résultat.

(6) U.S. Supreme Court, Burrow-Giles Lithographic Co. v. Sarony, 111 U.S. 53 (1884). 

(7) CJUE, 3e ch., 7 mars 2013, aff. C-145/10, Eva-Maria Painer contre Standard VerlagsGmbH e.a. 

(8) Office du droit d’auteur des  États-Unis, décision du 23 février 2023 : United States Copyright Office, Zarya of the Dawn (Registration # VAu001480196), https://copyright.gov/docs/zarya-of-the-dawn.pdf.  

⇒ La captation vidéo de la table ronde "Les output : quels enjeux pour les créateurs et le droit d'auteur?"

⇒ Entretien avec Jane C. Ginsburg sur la notion d'auteur à l'ère de l'intelligence artificielle

"CHATGPT : QUELS ENJEUX D'ÉTHIQUE ?" (table ronde)

Les intervenants : 

  • Raja Chatila, Professeur émérite d'informatique, Sorbonne Université, membre du Comité National Pilote d’Éthique du Numérique (CNPEN), 
  • Alexis Leautier, Ingénieur expert à la CNIL,  
  • Alexandre Piquard, Journaliste au Monde, 

Modération des débats par Célia Zolynski, Professeure de droit, université Paris 1 avec Alexia Meimoun et Clémence Girard, étudiantes en Master 1 Droit du numérique, parcours droit privé à l’université Paris 1 Panthéon-Sorbonne

Introduction

Si ChatGPT est un sujet actuel, il pose de nombreuses questions et implique de nouveaux enjeux éthiques, mais également juridiques. C’est dans cet objectif qu’il est nécessaire de comprendre le fonctionnement de ces IA génératives. 

Présentation des IA génératives et du fonctionnement de ChatGPT

Les IA génératives, comme ChatGPT, représentent un sujet aux enjeux importants. Il est ainsi nécessaire de savoir comment cela fonctionne de façon précise et technique. À l’origine, dans le cadre des IA génératives, était utilisé le même langage que celui s’appliquant aux êtres humains, mais pour des systèmes informatiques. Il s’agit ainsi d’un langage « naturel » pour lequel il est nécessaire de travailler sur son interprétation à travers les machines. Cela représente surtout l’un des plus vieux défis de l’informatique et de l’IA, au regard des difficultés que cela pose. En effet, cette interprétation est rendue difficile compte tenu des questions de contexte servant à interpréter les mots ainsi que des ambiguïtés de langage.

Plus particulièrement, les « grands modèles de langage » sont des systèmes d’IA avec des réseaux de neurones, présents en grand nombre, et utilisant de très grands modèles qui se mesurent en paramètres. À titre d’illustration, ChatGPT 3 (ouvert aux utilisateurs depuis juillet 2020 et produit par OpenAI) est un système, qui parmi les milliards de paramètres, va apprendre en fixant ses paramètres et en traitant des données textuelles récoltées sur Internet mais aussi dans la sphère privée. L’utilisation de ces données permet à ChatGPT d’affiner sa capacité d’interprétation et de développer un apprentissage non supervisé. En effet, aucune solution n’est donnée au système, puisque c’est ce dernier qui supervise lui-même la classification des données avec des exemples de textes récoltés sur Internet et grâce à un langage utilisant des mots. Toutefois, au regard du nombre de mots et de caractères très élevé, il est nécessaire de trouver un moyen de coder les textes en trouvant un intermédiaire entre les 26 lettres de l’alphabet et les milliers de mots qui existent. Pour y remédier, les « tokens » sont utilisés et constituent des paramètres composés de quatre caractères dont la mise en commun permet de coder un texte. De la même façon que l’architecture particulière des réseaux de neurones dénommés « transformers », ces derniers permettent de prendre en compte le contexte dans l’interprétation du langage naturel, ce qui est essentiel dans l’entraînement d’un outil tel que ChatGPT. Effectivement, si le nom ChatGPT contient le préfixe « chat », c’est parce que cela caractérise notamment sa fonction d’agent conversationnel, permettant ainsi d’interagir de façon continue, d’où la nécessité de prendre en compte le contexte.

Dans l’architecture « transformers », il existe deux moyens de traitement : les encodeurs et les décodeurs, permettant de prendre en compte les contextes précédents et d’avoir une meilleure interprétation de la situation. À titre d’exemple, ChatGPT 3 comportait 4 000 tokens alors qu’il en existe 32 000 dans ChatGPT 4, ce qui représente ainsi une plus grande taille et donc une meilleure appréhension du contexte, expliquant pourquoi ChatGPT 4 a la capacité de traduire un document de 50 pages, ce dont n'était pas capable ChatGPT 3. Dans le système des IA génératives, les tokens sont utilisés comme vecteurs pour trouver d’autres tokens similaires dans le contexte qui précède ou qui suit l’interprétation, la traduction etc. Ces systèmes peuvent ainsi servir de base pour des systèmes dits « à usage général ». Toutefois, le problème demeure concernant la législation en cours de préparation en droit de l’Union européenne car il y a une focalisation sur le risque de tels systèmes. Or, le risque réside dans l’application et non la technique de ces systèmes. En effet, les systèmes généraux, n’étant pas focalisés sur l’application de données, échappent donc à la possibilité d’être soumis à la législation à cause de l’approche basée sur le risque.

Enfin, ces systèmes détiennent divers risques tels que l’opacité des paramètres, les biais venant des données notamment, l’instabilité due aux modifications, le manque de robustesse causée par le manque de vérification ou encore un réel impact environnemental. Ces risques sont notamment dus au fait que les choix effectués par les ingénieurs d’OpenAI ne sont ni connus, ni divulgués dans aucune publication. Ainsi, le manque de transparence induit une lacune dans la compréhension par l’utilisateur ainsi que le régulateur.

L’essor et le succès de ChatGPT

Le succès de ChatGPT serait en partie dû à la communication et au succès de son interface plutôt qu’à sa technique elle-même. En effet, les spécialistes pensent que son essor fulgurant est davantage lié à sa politique de publication et à la possibilité de le rendre accessible à tous. Cela étant, ce succès génère une forme d’aigreur des concurrents. À titre d’exemple, Meta a souligné à quel point il n’y avait pas de différence et de supériorité technologique dans ce que fait OpenAI9. Google a quant à lui évoqué le risque réputationnel. C’est pourquoi, des entreprises telles que Google et Méta n’auraient pas osé lancer un tel système.

L’objectif commercial de ChatGPT

Il est possible de penser que le but de ChatGPT est commercial, en diffusant une technologie « gratuite » au début, en l’imposant aux utilisateurs, puis en la « refermant ». Il s’agit en effet d’une démarche commerciale pour laquelle OpenAI pense devenir leader sur le marché du Chatbot. Enfin, cette ouverture a permis aux utilisateurs de remarquer qu’ils pouvaient l’utiliser pour leurs besoins, ce qui crée ainsi une opportunité de marché pour OpenAI mais également des enjeux importants d’un point de vue éthique.

Les limites de ChatGPT

ChatGPT détermine lui-même ses limites en estimant qu’il détient une « connaissance limitée ». Une connaissance limitée qui découle notamment d’un point de coupure en 2021, lorsque l’entreprise a décidé de développer cette version. Ainsi ChatGPT n’a pas été mis à jour depuis 2021, probablement à cause du coût d’entraînement de l’outil. En effet, sur le marché, toutes les entreprises ne sont pas capables de mettre à jour quotidiennement leurs données, ce qui constitue toutefois une limite. D’autant plus, qu’il est possible de supposer que par souci de reproductibilité de l’approche, il y a une volonté d’avoir un ensemble de données d’entraînement défini. Il existe cependant des entraînements quotidiens de données avec des protocoles permettant d’entraîner les modèles fréquemment. Mais, dans le cadre de ChatGPT, est-ce réellement souhaitable ? Il est possible de supposer qu’il n’est pas préférable pour l’entreprise elle-même de mettre à jour fréquemment son modèle, même si certaines en font la promesse.

Depuis, OpenAi a annoncé que désormais, ChatGPT pouvait faire ses recherches sur le Web.

La présence de biais de discrimination dans ChatGPT

Les biais de discrimination sont un problème inhérent à tous les styles et systèmes d’IA puisqu’ils sont présents à différents endroits. En effet, même dans l’ensemble des données utilisées pour l'entraînement, normalement représentatives pour éviter la présence de biais, certains biais se retrouvent présents dans ces données, reflétant la société. Le système de ChatGPT est entraîné avec des données trouvées majoritairement sur Internet. Par conséquent, les biais de la société peuvent se retrouver dans les données d’entrée. En outre, au sein de l’algorithme lui-même, il est possible de mesurer ces biais en réalisant des tests sur les sorties, ce qui permet de s’assurer que ces biais sont présents mais pas excessivement importants pour les utilisateurs de l’outil. Ainsi, à la sortie de l’outil, il sera possible de s’assurer qu’il n’existe pas de comportement discriminant pour certaines catégories de personnes, notamment avec un « score de confiance ». Plus ce score sera bas, moins la sortie sera fiable et plus les discriminations seront probables. Cependant, malgré ces possibilités préventives, les biais demeurent fréquents et ne sont pas forcément évidents, puisqu’ils sont inhérents à la manière dont est utilisée l’IA.

C’est pourquoi dans ses travaux, la CNIL s’interroge sur l’utilisation de l’IA10 par les entreprises publiques et privées. Elle recommande d’étudier l’algorithme lui-même, ce qui demeure toutefois difficile et demanderait des ressources humaines importantes. Concernant les IA génératives, cela est encore récent. De ce fait, s’il existe une connaissance de l’existence de ces outils, l’impact de leur utilisation reste encore inconnu. La CNIL souhaite mener des travaux sur ce sujet et a donc créé un service de l’IA11 qui va s’intéresser à ces questions. Puisque la mission initiale de la CNIL est de constater l’impact des nouvelles technologies dans la société, même si le service consacré aux IA génératives n’est pas officiellement créé, la Commission a d’ores et déjà publié une série d’articles sur ces sujets, en relevant les différents enjeux juridiques et éthiques à travers une étude prospective.  

⇒ Le plan d'action de la CNIL sur l'intelligence artificielle

L’effet boîte noire et la perte de contrôle de l’humain sur ChatGPT et les IA

À l’origine, la boîte noire date du début de l’IA statistique et découle du fait qu’il n’existe aucun lien entre les paramètres du système. Ainsi, il est impossible de savoir comment une valeur du paramètre va influencer le résultat à la sortie. Ces systèmes ne sont pas transparents d’où l’existence de projets de recherche sur l’explicabilité de tels systèmes cherchant à expliquer la raison pour laquelle l’IA a produit un tel résultat en sortie. Si les biais sont existants, il est possible de les corriger en équilibrant les bases de données ou en focalisant le système sur d’autres points, puisque dans l’effet boîte noire c’est la maîtrise de la sortie qui est problématique. Ainsi, si le « contrôle humain » est souvent évoqué dans les solutions, ChatGPT répond également qu’il a des limites. Cela implique que s’il faut vérifier toutes les informations issues de ChatGPT, il serait plus raisonnable d'aller directement chercher l’information. En somme, à travers le système de boîte noire, ChatGPT produit des sorties semblables à ce que pourrait produire un humain, donc il existe une certaine confiance envers la machine, qu’il est tout de même nécessaire d’aller vérifier.

Sur l’explicabilité, il n’était pas question de savoir comment la décision a été prise, mais plutôt de réfléchir sur l’idée que ces grands modèles posent un problème. La question aurait donc pu se poser de savoir s’il ne serait pas pertinent d’utiliser des modèles plus petits mais plus fiables, permettant ainsi de mieux tracer la décision finale. 

La manipulation des informations sur ChatGPT

Il existe un constat selon lequel tous les chatbots pourraient livrer de fausses informations, ce qui relève d’un problème difficile à résoudre. Le fondateur d’OpenAI reconnaît qu’il s’agit d’ailleurs du plus grand problème, aussi bien avec les textes qu’avec les images. C’est un enjeu qui pourrait être limité avec l’entraînement du système sur des sets de données plus réduit. Mais qui déterminerait ce set de données ? N’existerait-il pas un risque de biais et d’atteinte à la liberté d’expression ? En effet, de telles questions rappellent celles qui se posent actuellement au sujet de la modération des réseaux sociaux et leur réglementation12, les biais sont présents ainsi que les questions d’ordre politique. Il est possible de constater qu’il existe des réponses « polémiques » auxquelles il serait possible de remédier par une régulation basée sur la transparence des filtres, des retraits ou encore des actions effectuées. Ce qui n’est toutefois pas le cas aujourd’hui pour les IA génératives. Actuellement, les entreprises privées déterminent elles-mêmes les données pour entraîner les IA et parmi les URL des sites français, le constat est tel que seulement deux journaux ont permis d’entraîner le modèle, ce qui peut expliquer l’impact engendré sur la qualité de l’outil. 

L’utilisation des données par ChatGPT

Il existe plusieurs types de données dans les systèmes d’IA génératives, mais les données sensibles font l’objet d’une protection spéciale. Il est possible de supposer que l’entreprise OpenAI ait tenté de retirer les données sensibles pour l’entraînement du système de ChatGPT. Toutefois, pour les autres données, il est probable que des règles existent afin d’éviter que les IA reproduisent, par exemple, le nom ou prénom de certaines personnes13. De manière générale, les données sont réutilisées pour le contexte de l’outil mais également pour le réentraînement de ce dernier. La question se pose de savoir si lorsqu’un utilisateur se sert de l’outil, ses données pourraient être réutilisées lors d’une utilisation tierce. Puisqu’il s’agit encore d’une expérimentation, il conviendrait d’adopter une position vigilante, avec certaines précautions, puisqu’il serait possible de retrouver des données fournies dans un autre cadre. C’est d’ailleurs pour cette raison qu’Elon Musk, avait interdit à ses employés d’utiliser ChatGPT.

Une régulation et une réglementation nécessaire dans l’usage de ChatGPT ?

Initialement, la proposition de règlement sur la législation sur l’intelligence artificielle actuellement discutée dans les institutions de l'Union européenne n’avait pas traité ce sujet puisqu’elle envisageait une approche basée sur les risques14. Or, les Chatbot n’étaient pas considérés comme hautement risqués. Il en résulte que seule une obligation de transparence leur était imposée. Toutefois, d’autres enjeux fondamentaux ont nécessité une régulation. Ainsi, sous la présidence française, il y a eu une révision incluant les systèmes dit : « à destination générale »15. Un outil tel que ChatGPT fait désormais partie de la proposition de règlement sur la législation sur l’intelligence artificielle qui responsabilise celui qui fournit le système général. Toutefois, dans la mise en œuvre de cette réglementation, comment rattacher cette responsabilité à une peine ? Ces nouveaux enjeux démontrent que la technologie a avancé et donne raison à la démarche d’une réglementation avec des annexes16, qui pourraient quant à elles évoluer au fil de la technologie.  

Enfin, au sujet de la responsabilité des IA génératives en cas de préjudice, la question reste sans réponse. S’il existe une volonté d’ouvrir une forme de responsabilité, cela n’est pas clair et le texte en négociation détient de considérables enjeux. L’idée serait de faire reposer sur celui qui a créé le système un devoir de coopération avec une obligation de transparence induisant des données de bonne qualité et diminuant ainsi les risques de biais. D’un point de vue de lobbying, le règlement sur l’IA n’est pas encore hautement efficient, mais il est possible que la pression autour du texte a augmenté graduellement ces derniers temps. 

(9) Voir à cet égard une déclaration de Yann LeCun, Responsable de l’IA chez Meta, lors d’une conférence du 23 janvier 2023. Aurore Gayte, “ChatGPT vous impressionne ? Yann LeCun s’en fiche”, Numerama, 25 janvier 2023.  

(10) Laboratoire d’Innovation Numérique de la CNIL (LINC), Dossier « Intelligence artificielle ».

(11)  CNIL, Création d’un service de l’IA à la CNIL et lancement des travaux sur les bases de données d’apprentissage, 23 janvier 2023.

(12) Règlement (UE) 2022/2065 du Parlement européen et du Conseil du 19 octobre 2022 relatif à un marché unique des services numériques et modifiant la directive 2000/31/CE (règlement sur les services numériques) (Texte présentant de l’intérêt pour l’EEE). 

(13) Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016, relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données), art. 9 

(14) Proposition de règlement du Parlement européen et du Conseil établissant des règles harmonisées concernant l’intelligence artificielle et modifiant certains actes législatifs de l’Union, COM/2021/206 final, avril 2021, art. 4. 

(15) Proposition de règlement du Parlement européen et du Conseil établissant des règles harmonisées concernant l’intelligence artificielle et modifiant certains actes législatifs de l’Union, COM/2021/206 final, avril 2021, art. 8.  

(16) Proposition de règlement du Parlement européen et du Conseil établissant des règles harmonisées concernant l’intelligence artificielle et modifiant certains actes législatifs de l’Union, COM/2021/206 final, avril 2021, annexes. 

⇒ La captation vidéo de la table ronde "ChatGPT : quels enjeux d'éthique?"