Entretien croisé avec Bertrand Pailhès et Félicien Vallet, agents de la CNIL sur la protection des données personnelles et intelligence artificielle

Bertrand Pailhès est Directeur des Technologies et de l’Innovation à la Commission nationale de l’informatique et des libertés (CNIL) depuis novembre 2019. Ancien de l’ARCEP, il a également travaillé dans les cabinets ministériels en charge du numérique, et notamment sur la loi pour une République numérique adoptée en octobre 2016. Il a coordonné en 2018 et 2019 la mise en place de la stratégie pour l’intelligence artificielle (IA) à la suite du rapport Villani.

Adjoint au chef du service de l’expertise technologique, Félicien Vallet est également responsable IA à la CNIL. Il coordonne les actions liées à l'intelligence artificielle au sein de l'autorité française de protection des données.

Tous deux ont accepté de répondre à nos questions autour des enjeux de protection des données personnelles à l’ère de l’intelligence artificielle.

La définition et la vision de l’intelligence artificielle retenues par la Commission nationale de l’informatique et des libertés

Bertrand Pailhès : À titre liminaire, j’aimerais indiquer qu’il y a, depuis quelques mois, une réelle volonté de la CNIL de rendre visibles les enjeux autour de l'intelligence artificielle et qui s’est traduite par la publication d’un dossier sur le sujet en avril 2022. Certes, le sujet n’est pas nouveau pour la CNIL car les systèmes d’IA relèvent déjà de la protection des données personnelles et la CNIL y est confrontée depuis plusieurs années. Cependant, nous avons souhaité dégager de grandes règles en matière de protection des données pour l’objet « intelligence artificielle » en tant que tel. Bien entendu, au cas par cas, des spécificités s’appliquent.

L’idée n’est pas de reconstruire une définition de l'intelligence artificielle dans la mesure où des travaux se sont déjà penchés sur cela à l’image du groupe d’experts de haut niveau sur l’intelligence artificielle mandaté par la Commission européenne. Sur notre site web, l’intelligence artificielle est définie comme « un procédé logique et automatisé reposant généralement sur un algorithme et en mesure de réaliser des tâches bien définies ». Pour le Parlement européen, constitue une intelligence artificielle tout outil utilisé par une machine afin de « reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité ». Plus précisément, la Commission européenne considère que l’IA regroupe les approches d’apprentissage automatique, les approches fondées sur la logique et les connaissances et les approches statistiques, l’estimation bayésienne, et les méthodes de recherche et d’optimisation. Aux termes de l'article 3,1 de la proposition de règlement dite législation sur l’intelligence artificielle, un « système d’intelligence artificielle» (système d’IA) est défini comme « un logiciel qui est développé au moyen d’une ou plusieurs des techniques et approches énumérées à l’annexe I et qui peut, pour un ensemble donné d’objectifs définis par l’homme, générer des résultats tels que des contenus, des prédictions, des recommandations ou des décisions influençant les environnements avec lesquels il interagit. »

En termes de vision, la CNIL distingue les deux branches de l’IA c’est-à-dire d’une part, la branche systèmes experts et l’IA déterministe basée sur des règles et d’autre part, l’approche plus statistique qui occupe le centre du débat aujourd’hui. On voit moins de difficulté en termes de conformité sur les logiciels d’IA basées sur des règles : ils sont explicables et on peut juger de leur implémentation. Cela est plus complexe pour les approches statistiques.

Félicien Vallet : On s'intéresse plus particulièrement à des questions d'application du règlement général sur la protection des données (RGPD). Il s’agit d’inscrire l’usage des logiciels d’IA dans un contexte opérationnel. Nous avons ainsi constaté le recours à l’IA dans de multiples secteurs et, de façon très concrète, la CNIL a été saisie sur de nombreux dossiers mettant en œuvre de tels systèmes. Citons quelques exemples et cas pratiques par domaine :

en santé avec l’aide au diagnostic ou encore l’assistance en imagerie médicale, le codage d’actes médicaux (PMSI) ;
en justice avec le projet DataJust (création d’un référentiel pour l’indemnisation de victimes de préjudices corporels) ;
dans l’administration fiscale avec le projet CFVR qui permet notamment le ciblage de la fraude et la valorisation des requêtes pour l’amélioration de l’efficacité des opérations de contrôle fiscal par analyse de publications sur les réseaux sociaux ;
pour les smart cities qui permettent notamment la détection d’événements ou de comportements particuliers (circulation en sens inverse, présence d’attroupements, dépôts d'ordures sauvages, etc.) ;
dans les transports avec des expérimentations de reconnaissance faciale pour faciliter l’embarquement dans les aéroports, l’aide au suivi de personnes en gare ou encore la détection du port du masque ;
dans les ressources humaines et le recrutement avec l’évaluation automatique de CV et d’entretiens vidéo ;
dans le domaine de l’éducation avec le développement d’outils pédagogiques adaptés aux rythmes d’apprentissage des élèves ;
dans le retail avec le comptage et la segmentation du public dans les centres commerciaux ;
etc.

Il faut bien comprendre que la loi informatique et libertés ne régule pas les données, mais les traitements qui sont faits de celles-ci. À partir du moment où il existe un traitement de données à caractère personnel, nous traitons indifféremment des systèmes plus ou moins intelligents et nous vérifions leur conformité avec les textes en vigueur. Autrement dit, nous avons une pratique opérationnelle sans qu’elle traite de l’IA en tant que telle. Nous nous confrontons à des systèmes que l’on passe au crible du RGPD.

Les actions menées par la CNIL depuis la publication du rapport "Comment permettre à l’homme de garder la main ?"

Bertrand Pailhès : Le terme d’intelligence artificielle est de plus en plus employé ces dix dernières années. Nous avons publié plusieurs travaux depuis 2017 sur la question. En effet, quelques mois avant la remise du rapport du député Cédric Villani sur l'intelligence artificielle, nous avons remis un rapport sur les enjeux éthiques des algorithmes et de l'IA : "Comment permettre à l’Homme de garder la main?". Notre porte d’entrée était les algorithmes, mais nous avons aussi saisi les enjeux d’IA. Puis, en juin 2020, nous avons publié en partenariat avec le Défenseur des droits le document “Algorithmes : prévenir l'automatisation des discriminations”. En septembre 2020, nous avons rendu public un livre blanc sur les assistants vocaux. Enfin, en janvier 2022, nous avons lancé une consultation sur les dispositifs de caméras augmentées / vidéos intelligentes.

Nous avons aussi beaucoup travaillé en interne. Ainsi, le collège des membres de la CNIL a été sollicité sur différents aspects. Ce ne sont pas forcément des actions visibles. Les travaux de la Commission européenne sur l’IA ont permis de faire émerger une réflexion. Cela a commencé avec les travaux du groupe d’experts de haut niveau susmentionné puisque la CNIL a bénéficié d’un rôle d’observateur, puis le livre blanc sur l’IA proposé par la Commission européenne en 2020 et la publication du réglement dit législation sur l’intelligence artificielle en avril 2021 sur lesquels les autorités européennes de protection des données se sont positionnées de façon officielle.

Au quotidien, nos principales sources de doctrine en la matière sont les demandes d'avis du gouvernement avec des avis formels et les demandes de conseils et d’accompagnement qui nous sont soumises. Par exemple, dans le cadre du bac à sable avec le Centre hospitalier universitaire de Lille (accompagné de l’équipe Magnet d’Inria), la CNIL a analysé un projet de recherche fondé sur l’apprentissage fédéré, qui nous a permis de dégager une doctrine sur l’utilisation d’entrepôts de données de santé pour le développement d’IA dans le domaine de la santé.

Les opportunités et les risques des systèmes d'intelligence artificielle en matière de protection des données à caractère personnel

Félicien Vallet : Dans le dossier sur l’intelligence artificielle que nous avons récemment publié, nous avons souhaité mettre en avant les enjeux de ces systèmes. Par certains égards, on peut considérer que s’agissant de la protection des données, il s’agit de risques classiques. Cependant, ces risques sont renouvelés car amplifiés ou vus sous un angle nouveau. Je songe notamment aux risques en termes de prise de décisions automatisées ou encore aux risques de transparence avec des systèmes opaques. Il existe également des risques de discriminations, largement discutés ces dernières années, ou encore des risques en termes de sécurité du fait de l’introduction de nouvelles vulnérabilités spécifiques à ces systèmes.

Cela étant, il faut aussi insister sur la partie opportunité. En tant que régulateur informatique, la CNIL mesure l'intérêt que les systèmes d’intelligence artificielle peuvent avoir pour des finalités d’intérêt public ou pour des finalités commerciales. Ainsi, la CNIL a autorisé de nombreux systèmes d’IA dans le domaine de la santé. Il est toutefois nécessaire de vérifier à chaque fois l’intérêt et la proportionnalité du recours à ces systèmes. Cela implique un besoin de clarification de la manière dont s’appliquent les grands principes du RGPD aux technologies d’IA. Quelles sont les obligations pour les responsables de traitement ? Comment assurer l’exercice des droits des individus concernés ? Comment assurer la transparence ? etc.

Un plan de publication à 360° sur l’IA

Félicien Vallet : En avril dernier, nous avons publié un ensemble de ressources sur l’intelligence artificielle :

Pour le grand public,
Pour les professionnels de la protection de la vie privée,
Pour les spécialistes de l’intelligence artificielle.

Ces publications témoignent de la volonté de la CNIL de saisir ce sujet à bras-le-corps et d’être clairement identifiée comme point de recours pour les individus et autorité de régulation pour les professionnels. Il s’agit également de promouvoir les bonnes pratiques et d’augmenter la sécurité juridique des acteurs.

Pour le grand public, on retrouve notamment l'article « IA de quoi parle-t-on ? » qui vise à expliciter de façon très didactique le fonctionnement et les enjeux de l’IA. L’article « Quelques ressources accessibles à tous pour comprendre l’intelligence artificielle » propose des pointeurs vers des livres, films, cours en ligne et démonstrateurs afin de permettre à chacun d’améliorer sa connaissance et sa compréhension de ce sujet complexe. Enfin, un glossaire de l’IA vient offrir quelques définitions afin d'en faciliter la compréhension.

Pour les professionnels, nous avons publié deux outils d’aide à la mise en conformité : en premier lieu, l'article « IA, Comment assurer la conformité au RGPD ? » qui précise comment respecter les grands principes du RGPD lorsqu’on met en œuvre un système d’IA et en second lieu, un guide d'auto-évaluation pour les systèmes d'intelligence artificielle permettant de se poser quelques questions essentielles avant de mettre en œuvre son système. Sept fiches thématiques sont consultables :

Se poser les bonnes questions avant d’utiliser un système d'intelligence artificielle (finalité, responsabilité, base légale) ;
Collecter et qualifier les données d'entraînement (collecte, prétraitement, biais) ;
Développer et entraîner un algorithme (algorithme, entraînement, test) ;
Utiliser un système d'IA en production (supervision, explicabilité, qualité) ;
Sécuriser le traitement (attaques, failles, mesures de sécurité) ;
Permettre le bon exercice de leurs droits par les personnes (impact, information, exercice des droits) ;
Se mettre en conformité (normes, AIPD, documentation).

Enfin, pour les spécialistes, nous avons mis à disposition un ensemble de ressources plus techniques, allant de la revue de littérature jusqu’aux bonnes pratiques en la matière : par exemple pour assurer la sécurité des systèmes d’IA (triptyque) ou sur l’apprentissage fédéré. Nous avons aussi publié des paroles d’experts à l’image de Nicolas Papernot sur la gouvernance des systèmes d’IA ou encore Aurélien Bellet et Marc Tommasi sur l’apprentissage fédéré.

Le positionnement de la CNIL sur la proposition de règlement relatif à la législation sur l'intelligence artificielle

Bertrand Pailhès : Nous suivons la proposition de règlement sur la législation sur l’IA dite AI Act et nous réalisons un travail d’anticipation de cette future réglementation qui sera très interconnectée avec le RGPD. Nous relevons que la problématique des usages interdits des systèmes d’IA tourne principalement autour de questions de libertés fondamentales que la CNIL a l’habitude de traiter. Pour autant, il est intéressant de remarquer que la logique générale retenue est celle d’une régulation de marché fondée sur des certifications. Par conséquent, l’AI Act mélange les droits fondamentaux et la sécurité des produits tout en ayant une logique commerciale avec le marquage CE.

Sur le fond, nous nous appuyons beaucoup sur l’avis conjoint du Contrôleur européen de la protection des données et du Comité européen sur la protection des données sur la législation sur l’intelligence artificielle. Cet avis a été rendu en juin 2021 avec au global un accueil favorable de ce texte. Le RGPD concerne des responsables de traitement et des sous-traitants, mais pas les fournisseurs de logiciels qui ont pourtant un impact important dans l’écosystème numérique. De ce point de vue, l’AI Act complète utilement le cadre réglementaire. L’approche par les risques semble congruente et adaptée avec le RGPD. Toutefois, nous avons des points d'attention sur la combinaison des règles au titre du RGPD et au titre de la législation sur l’IA : est-ce que l’usage d’un système d’IA à haut risque au titre de l’AI Act déclenche une analyse d'impact au titre du RGPD ? Tous les systèmes à haut risque ont-ils été bien identifiés ? Comment se fait la bascule entre un système interdit et un système à haut risque ? Etc. Il y a par ailleurs un enjeu de vocabulaire, car les deux textes manipulent des concepts similaires mais rédigés avec des plumes différentes.

Notons enfin, qu’il y a eu près de 3 000 amendements déposés au parlement européen. Il est donc plus que probable que le texte change beaucoup par rapport à sa version initiale. À ce stade, la CNIL n’intervient plus dans la négociation : les CNIL européennes ont été saisies pour avis mais ne participent pas directement aux négociations sur le texte.

Cela étant, sur le sujet de la gouvernance, il nous semble que les autorités de protection devaient être les autorités de contrôles, notamment pour la régulation des libertés fondamentales et des usages interdits. Cela impliquera sans doute une évolution de leurs missions. Le chapitre gouvernance de l’AI Act n’est aujourd’hui pas très développé et, même si ce texte n’est pas parfait, il y a des leçons à tirer du RGPD. Avec le marquage CE, la CNIL pourrait développer de nouvelles compétences notamment avec le système de tiers évaluateur. Ce sont des modalités de régulation qui seraient nouvelles pour la CNIL, même si le RGPD prévoit déjà quelques dispositifs de ce type. En tout état de cause, il y aura beaucoup d’interrégulation et la CNIL dispose d’un rôle transversal en raison de sa compétence sur les données, à l’image de celle du Défenseur des droits sur les discriminations.

Les actions qui vont être mises en œuvre pour la suite

Bertrand Pailhès : Pour la suite, nous avons plusieurs lignes de travail. Nous souhaitons évaluer comment ces technologies sont privacy by design et dans quel contexte elles sont opérationnelles. L’objectif à terme consiste à challenger les personnes qui ont de grandes bases de données.

Il y a par ailleurs un débat sur l’utilisation de l’intérêt légitime au lieu du consentement pour constituer des bases de données et notamment avec des données sensibles : c’est le cas de la biométrie et de la santé par exemple. Aujourd’hui, de nombreuses personnes trouvent que c’est plus simple de faire cela en dehors de l’Europe mais nous souhaitons trouver des voies technologiques et juridiques pour stimuler la recherche tout en protégeant les droits des personnes. Nous souhaitons en particulier répondre à la question des conditions d’application du cadre spécifique de la recherche, dans le RGPD, à des traitements d’IA. Pour le moment, nous ne sommes pas capables de répondre précisément sur ce qui peut être considéré comme de la recherche dans le cadre du développement d’IA. Nous pensons cependant qu’il faut distinguer les phases d'entraînement et d'exploitation par rapport aux données afin de minimiser les données exploitées à ce qui est strictement nécessaire à chaque phase (voir la publication « IA, Comment assurer la conformité au RGPD ? » pour plus d’informations). Nous aurons aussi dans les prochains mois le sujet de la présence de données dans les modèles : un droit d’opposition sur un modèle est-il réalisable ? On va avancer soit par voie de jurisprudence (avis de gouvernement ou cas de contentieux) ou encore avec des lignes directrices. Nous disposons enfin d’un groupe de travail dirigé par Anne Debet sur la réutilisation des données et c’est un sujet sur lequel on va formuler de la doctrine. Les actions ne manquent donc pas !