Entretien avec Paul-Antoine Chevalier sur l'intelligence artificielle et innovation publique
Paul-Antoine Chevalier est responsable du Lab IA du département Etalab de la Direction interministérielle du numérique (DINUM). Il a accepté de répondre aux questions d’Observatoire de l’intelligence artificielle de l’Université Paris 1 Panthéon-Sorbonne autour des enjeux d’IA et d’action publique. Il nous présente également quelques projets d’innovation publique menés ces dernières années grâce à l’intelligence artificielle.
Le Lab IA et le pôle exploitation de données au sein d’Etalab
Paul-Antoine Chevalier : En tant que responsable Lab IA au sein d’Etalab qui dépend de la direction interministérielle du numérique (DINUM), j’ai contribué à le préfigurer. Je suis arrivé à Etalab à la fin de l’année 2014 en tant que data scientist auprès de l'administrateur général des données. Il est important de rappeler qu’Etalab est une administration publique française créée en 2011 qui vise à améliorer le service public et l'action publique grâce aux données. En 2014, la création de la fonction "administrateur général des données" (AGD) a initié ce qu’on appelle aujourd’hui la politique publique de la donnée. L’équipe de l’administrateur général des données regroupait alors quatre data scientists dont la mission consistait à accompagner l’administration pour utiliser la donnée de manière innovante et ainsi être plus efficace dans les politiques publiques qu’elle mène. Le pôle exploitation des données vient de l’équipe data sciences qui était auprès de l’administrateur général des données et qui a mené plusieurs projets. Peut être citée l'initiative la bonne boite qui effectue un ciblage spécifique des entreprises à fort potentiel d’embauche afin de faire gagner du temps aux personnes en recherche d’emplois dans la sélection des entreprises à démarcher.
En 2018, le rapport Villani sur l’intelligence artificielle avait préconisé la création d’un Lab IA pour accompagner les administrations à utiliser et développer des algorithmes d’intelligence artificielle.
Le Laboratoire pour l’intelligence artificielle (Lab IA) s’inscrit dans le cadre de la stratégie nationale pour l’intelligence artificielle, dévoilée le 29 mars 2018 par le Président de la République à l’issue de la publication du rapport Villani. Le Lab IA a été créé par le Comité Interministériel de la Transformation Publique du 29 octobre 2018. Il s'inscrit aussi dans la stratégie d’Etalab à savoir l’ouverture de données (via data.gouv.fr), la circulation des données (via API.gouv) et enfin l’exploitation des données (via le Lab IA).
⇒ Lire également : Chronologie des principales actions des autorités publiques françaises sur l’intelligence artificielle
Le Lab IA accompagne les administrations dans le déploiement de leurs projets IA et renforce leurs capacités en data science. Son équipe cœur est pluridisciplinaire et composée également de chercheurs de l’INRIA. Elle agit en lien étroit avec le reste du département Etalab, de la DINUM ainsi qu’avec le réseau des administrateurs ministériels des données, des algorithmes et codes sources (AMDAC) et les équipes numériques des ministères et établissements publics.
Le lab IA a cinq missions principales.
- Premièrement, le lab IA vise à accompagner les projets IA de l’administration. Depuis début 2019, le Lab IA a accompagné 26 projets de l’administration faisant appel à l’IA. Au bénéfice des usagers et des agents, ceux-ci couvrent de nombreux champs de l’action publique : justice, sécurité, économie, santé, alimentation, transition écologique … Concrètement, il s’agit d'accompagner les administrations pour expérimenter l’IA sur des cas d’usage précis via une logique d’appel à projets ou d’appel à manifestation d'intérêts par exemple pour développer un algorithme durant un an.
- Deuxièmement, il s’agit de développer des outils mutualisés au service de l’action publique. À cette fin, le Lab IA a construit des briques technologiques d’IA et des jeux de données qui pourront être mobilisés pour différents usages dans l’administration. Par exemple, ont été développés des outils d’anonymisation ou encore de questions/réponses automatisées.
- Troisièmement, un des objectifs du lab IA est d’animer la communauté IA de l’administration notamment grâce au réseau des data scientists de l’administration. Ce réseau leur permet d’échanger sur les bonnes pratiques et l’état de l’art des technologies IA. Depuis 2018, les administrations et les ministères ont créé des labs, mais il existe un vrai besoin de collaboration et de partage d’expériences.
- Quatrièmement, le lab IA développe l’éthique de l’IA dans la sphère publique et la transparence vers les citoyens. À cet égard, le Lab IA participe aux travaux d’Etalab sur la transparence et l’explicabilité des algorithmes.
- Enfin, il s’agit de construire un partenariat avec l’écosystème de la recherche en IA.
Quatre grands domaines d’IA et leur application dans la sphère publique
Paul Antoine-Chevalier : Durant mes interventions, je prends soin de dire que je ne définis pas l'intelligence artificielle. Néanmoins, si on synthétise, l’IA est de l’apprentissage sur des données. L’IA requiert en effet des données, de grandes puissances de calcul ainsi que des algorithmes d'apprentissage automatique. Les deux grandes familles de modèles d’apprentissage sont de l’apprentissage supervisé et de l’apprentissage non supervisé. Un apprentissage est supervisé lorsque l’on cherche à trouver une fonction de prédiction d’une variable à partir d’une série d’exemples étiquetés. Lorsque l'apprentissage est non supervisé, la série d’exemples n’est pas étiquetée. Il s’agit de trouver des structures sous-jacentes afin de créer des groupes d’exemples homogènes.
Il existe quatre grands domaines d’IA qui s'appliquent dans la sphère publique.
- L’apprentissage sur des données structurées permet notamment de prédire une grandeur d’intérêt comme les prix de l’essence, de classifier automatiquement (par exemple pour déterminer si une entreprise va embaucher ou non dans les trois prochains mois) ou encore de segmenter automatiquement (par exemple pour regrouper les bâtiments avec les mêmes profils de consommation énergétiques). Sur ce dernier point, le projet Signaux Faibles permet de prédire une défaillance d’entreprises à partir de données de type URSSAF (cotisations, effectifs, dettes) ou DIRECCTE (demande d’activité partielle, etc). Il s’agit d’un problème de classification puisqu’on prédit une défaillance dans les 12 prochains mois. L’algorithme produit un classement qui permet de prioriser les visites en fonction de la probabilité de défaillance.
- L'apprentissage sur des données images permet une classification automatique d’images. À titre illustratif, le projet OpenSolarMap évalue le potentiel solaire des toits en France. L’apprentissage sur des données image offre aussi la possibilité d’une détection d’objets dans des images. On peut désormais identifier les occupations irrégulières du sol dans les zones à risque ou encore détecter les modèles de voitures pour limiter les erreurs dans les procès verbaux via l’outil IAflash.
- L’apprentissage sur des données en langage naturel permet notamment d’extraire automatiquement des informations (par exemple reconnaître les noms des personnes dans un texte), de classifier automatiquement des documents ou encore de répondre automatiquement à des questions ouvertes. Grâce à l’apprentissage sur des données en langage naturel, il est possible de pseudonymiser automatiquement les décisions de justice par exemple des arrêts de la Cour de cassation et du Conseil d’État. L’outil Pseudo développé par Etalab ou l’algorithme de la Cour de cassation permettent en effet de détecter automatiquement les prénoms, les adresses, les dates de naissance grâce à deux étapes : l’annotation de décisions puis l’entraînement d’un modèle qui généralise pour l’ensemble des décisions.
- L’apprentissage sur des données de voix regroupe la transcription automatique, la synthèse vocale et la reconnaissance vocale. Il a été utilisé par l’Institut national de l’audiovisuel pour mesurer le temps de parole des femmes et des hommes à la radio. L’algorithme développé - InaSpeechAugmenter - sépare la musique et la voix et les voix féminines et masculines afin de déterminer le genre du locuteur.
Ces cas d’usage peuvent être classifiés selon qu’ils sont destinés aux agents ou aux usagers. Pour les agents, il s’agit principalement d’enjeu de priorisation du travail par exemple pour déterminer ou investiguer en premier, d’automatisation d’un travail rébarbatif telle que la pseudonymisation des décisions de justice ou encore d’enrichissement du travail de l’agent notamment par le biais de moteurs de recherche intelligents pour trouver des informations. Pour les usagers, il s’agit principalement de simplifier la relation avec l'usager notamment par le biais de moteurs de recherche intelligents, d’un code du travail numérique ou encore de chatbots. Ainsi, pour répondre aux questions des usagers sur le chèque emploi associatif, l’ACOSS a développé un voicebot qui permet de répondre aux questions simples. Cet outil détecte les “intentions” des questions pour trouver la bonne réponse et est capable de distinguer 72 intentions différentes parmi les questions pour trouver la bonne réponse.
Des projets interministériels et avec l’Inria
Paul Antoine Chevalier : Nous avons réalisé une vingtaine d’accompagnements, dont un certain nombre avec la Direction interministérielle de la transformation publique (DITP). Au sein du Lab IA, nous nous sommes chargés de la réalisation technique de l'algorithme tandis que la DITP a réalisé des diagnostics en amont du projet et l’évalue à la fin du projet. Par ailleurs, notre partenariat avec l’Inria nous permet de travailler avec des laboratoires à l’état de l’art en IA. Par exemple, avec la Cour de cassation, nous avons développé un algorithme qui permet d’identifier la question de droit. Cet algorithme a pu être développé grâce à un partenariat avec le laboratoire Almanach de l’Inria.
Développer une IA publique de confiance
Paul-Antoine Chevalier : Le lab IA fait partie de la stratégie nationale et européenne sur l’intelligence artificielle. Depuis le rapport Villani, il est désormais acquis d’utiliser l’IA dans le cadre de la transformation publique. Nous avons obtenu un portage et des crédits et cela a été bénéfique.
Lorsque nous avons lancé l'équipe data sciences en 2014, il y avait un travail d'évangélisation à faire dans l'utilisation des données pour être plus efficace. On partait en effet d’une situation où la data science était nouvelle et il y avait de la méfiance. Puis des actions ont été effectuées, l'idée de l’IA a cheminé. Elle était plus compréhensible que la notion de science des données dans la mesure où l’IA est davantage orientée sur les usages. Il y a trois ans, nous avons constaté qu’il y avait besoin de pouvoir expérimenter au niveau étatique bien que beaucoup d'administrations n’avaient pas de compétences. La situation a beaucoup évolué en trois ans comme en témoignent les projets qui ont été menés. Désormais, la majorité des ministères ont leur équipe et sont capables de développer des outils, de développer des algorithmes et de croiser des données. Il existe toujours un potentiel énorme pour accélérer certaines tâches, faciliter la relation à l'usage, enrichir le travail des agents, prioriser.
C’est notamment la raison de la publication de l’étude du Conseil d’État (CE) à la demande du premier ministre en août 2022 intitulée « Intelligence artificielle et action publique : construire la confiance, servir la performance ». Ce rapport opère un panorama de ce qui existe. Le premier acquis du rapport est donc de mettre en lumière la richesse de ce qui a été fait. Il y a une volonté de se dire qu’il faut aller plus loin et en faire plus. Plus particulièrement, il faut en faire plus dans l'État mais aussi dans les collectivités territoriales. Le CE plaide pour la mise en œuvre d’une politique de déploiement de l’IA résolument volontariste, au service de l’intérêt général et de la performance publique. Le parti pris du CE est de raisonner à droit constant puisque le règlement sur l’IA est en cours au niveau européen. Il s'agissait de produire des recommandations qui s'inscrivaient dans ce texte. A donc été proposée la mise en œuvre de lignes directrices pragmatiques permettant un déploiement de l’intelligence artificielle dans les services publics par étape, lucide et vigilant, au plus près des besoins des Français. Une intelligence artificielle publique de confiance reposant sur sept principes : la primauté humaine, la performance, l’équité et la non-discrimination, la transparence, la sûreté (cybersécurité), la soutenabilité environnementale et l’autonomie stratégique. L’enjeu est désormais de transcrire ces principes de manière concrète dans des projets.
⇒ Lire également : « IA et action publique : construire la confiance, servir la performance » - Étude à la demande du Premier ministre
Il y a des enjeux de recrutement afin de constituer des équipes solides. Il y a des enjeux de type ressources humaines. C’est pourquoi une mission a été conduite entre février et juin 2021 par une équipe conjointe de la direction interministérielle du numérique (DINUM/Etalab) et de l’Institut de la statistique et des études économiques (Insee). Le rapport “12 recommandations pour dynamiser la gestion et la valorisation des compétences data” s’est concentré prioritairement sur quatre métiers (data scientist, data analyst, data engineer et data architect) et la mission s’est attachée à évaluer qualitativement et quantitativement les expertises disponibles au sein de l’État, les besoins des administrations à court et à moyen terme et la capacité à faire face à l’accroissement de ces besoins. Il manque 400 experts d’ici à 2023. Cela n’est pas impossible dans la mesure où historiquement, le programme d’Entrepreneurs d’intérêt général a permis de recruter des talents. C’est un programme d'innovation de dix mois. Assez souvent, les personnes restent dans l'administration donc c’est un programme qui permet d’attirer des gens dans la sphère publique. C’est un vrai levier. Il faut continuer d’améliorer l'attractivité de l'État sur ces sujets. À cet égard, le programme 10% propose que les data scientists passent 10% sur des projets d'intérêts communs. Le projet a été expérimenté cette année et il y a une bonne dynamique. Il est pensé comme un programme qui donne envie aux data scientists de rester dans l’administration. On a des gens de différents ministères qui travaillent ensemble et c’est très enrichissant.
Les défis à venir en matière d’intelligence artificielle et de stratégie publique
Paul-Antoine Chevalier : On constate qu’il y a eu de grands projets d’utilisation de systèmes d’IA dans le domaine public. C’est notamment le cas du projet de l’Institut national de l’information géographique et forestière qui s’est lancé, à la demande du gouvernement, dans un programme ambitieux de production de données automatisées par intelligence artificielle afin de livrer des données d’occupation du sol cohérentes au niveau national pour une couverture de la France entière d’ici à 2024. Au-delà de ces projets, le prochain défi est de parvenir à développer des cas d’usage pour passer à l’échelle. Cela suppose que les datalab disposent d’une offre de services et de moyens supplémentaires. Enfin, il y a un vrai enjeu des sujets de capacité de calculs et de capacité à faire.