Entretien avec Salma Mesmoudi : l'IA au service du cerveau et de la mémoire

Portrait de Salma Mesmoudi
Texte

Salma Mesmoudi est ingénieure de recherche au sein de l’université Paris 1 Panthéon-Sorbonne. Son activité de recherche actuelle est liée à l’intégration de données sur le cerveau à grande échelle et de sources multiples. Ce travail concerne le traitement multimodal des images IRM, leur intégration avec les données expérimentales en génétique et les grandes bases de métadonnées bibliographiques. Cette intégration de données sur le cerveau a déduit un nouveau  modèle fonctionnel, en double anneaux, de traitement de l’information par le cerveau, ainsi qu’une plateforme “https://linkrdata.fr” qui permet aux chercheurs et cliniciens de connecter facilement différents types d’images et d’extraire des connaissances autour de leurs données.

Elle s’est prêtée au jeu de l’interview sur son parcours et ses recherches sur l’intelligence artificielle au service d’autres disciplines pour l'Observatoire de l’intelligence artificielle de l’université Paris 1 Panthéon-Sorbonne.

La recherche en intelligence artificielle : des changements sans précédent

Salma Mesmoudi : J'ai obtenu un doctorat en intelligence artificielle en 2005. À l'époque, l’intelligence artificielle était principalement synonyme des systèmes experts. On vivait encore sur la réussite de la machine sur le champion du monde d'échecs. Deux autres grandes branches existaient. La première repose sur les réseaux de neurones qui étaient surtout utilisés pour la reconnaissance de la voix et aussi dans d'autres projets comme la vision par ordinateur. La seconde constitue la branche oubliée de l'intelligence artificielle à savoir les algorithmes évolutionnaires dont le principe s'inspire de la théorie de l'évolution pour résoudre des problèmes divers. Plusieurs de ces projets étaient très prometteurs, cependant, la puissance de calcul était insuffisante. L’année 2010 est une année qui a beaucoup marqué le domaine de l’intelligence artificielle et aussi l’évolution de ma carrière. C’est l’année où un progrès technologique exceptionnel va s’opérer et va améliorer la puissance de calcul. On va commencer à utiliser les processeurs de cartes graphiques et cela va tout simplement donner un coup de pouce au stockage et au traitement de données. Dans le domaine de l'apprentissage, le deep learning commence une avancée considérable, car la rapidité du calcul a été multiplié par 2000.

C’est dans ce contexte que j’ai réalisé mon post-doctorat dans un laboratoire de neuro-imagerie à la Pitié-Salpêtrière. Cela coïncidait avec le démarrage d’une vague de partage des données en neuro-imagerie initiée par le National Institute for Health (NIH) aux États-Unis d’Amérique par le biais de plateformes de collecte et partage de données d’imagerie par résonance magnétique (IRM) du cerveau à travers le monde[1]. Ces données vont être accessibles gratuitement pour le monde académique, grâce à une politique d’ouverture de données, pour que les chercheurs puissent bénéficier de tout ce qui est produit dans le monde en neuro-imagerie. Dans le cadre de mon post-doc à la Pitié-Salpêtrière, nous voulions profiter de cette vague de partage pour passer de bases de données locales qui, dans le meilleur des cas, comportait une quarantaine d’IRM de cerveaux à des échantillons de 400 IRM de cerveaux. Il s’agissait de passer l’échelle afin de pouvoir traiter en même temps 400 images. C’était la première fois que je travaillais sur le cerveau. J’ai découvert un monde de données qui ne s'arrête pas, qui est tout le temps alimenté par de nouvelles données. Le premier travail que j'ai effectué était des améliorations algorithmiques pour le traitement de 400 images. Plus tard, un travail de recherche sur la démonstration d’un nouveau modèle fonctionnel du cerveau a été élaboré. Lorsque j’ai découvert un autre type de données qui étaient également ouvertes pour les chercheurs à savoir des données génétiques, nous avons confirmé le modèle fonctionnel déjà publié dans l'échelle génétique[2]. Les bases de données bibliographiques étaient aussi ouvertes. J’ai alors commencé à m'interroger sur la valeur de ces données et comment je pourrais les intégrer et en faire profiter aussi, mes collègues du laboratoire. Par la suite, je me suis donc intéressée à comprendre les avancées algorithmiques comme le traitement de langage naturel.

La première étape de mon projet de recherche portait sur le cerveau et s'appelait LinkRbrain[3]. Il s’agissait d’exploiter des données issues de différentes sources sur la thématique complexe du fonctionnement du cerveau. Cela nécessitait des algorithmes spécifiques d’intelligence artificielle pour le traitement de ces données. ​​

L’IA au service d’une meilleure connaissance du cerveau

Salma Mesmoudi : LinkRbrain est devenu par la suite une plateforme web en libre accès pour l’intégration, la visualisation, et la documentation de données sur le cerveau humain à plusieurs échelles. Cette plateforme intègre les connaissances anatomiques, fonctionnelles et génétiques produites par la communauté scientifique.

Lorsque j’ai débuté mon travail, nous disposions d’une quarantaine d'IRM pour lesquelles nous arrivions à détecter des signaux émis par différentes parties du cerveau qui étaient au nombre de douze. Grâce à ces plateformes de partages de données, j'ai exploré les différentes IRM et j’ai regroupé des données qui étaient homogènes sur le plan statistique. J’ai réussi à traiter 400 IRM en même temps et j’ai découvert que ce qui était considéré comme du bruit était en réalité de vrais signaux. En fait, avec 40 IRM, nous n’avions pas assez de puissance statistique pour que ce faux bruit soit considéré comme un vrai signal. Songez à un microscope : plus on change sa résolution, plus on observe de nouvelles structures. C'est la même chose avec les données, plus vous augmentez le nombre de données, plus vous pouvez extraire des résultats puissants statistiquement. Nous sommes donc passés de 12  signaux à 32, mais on ne savait pas à quoi ils correspondaient[4]. On a donc travaillé avec un neuro-anatomiste de la Pitié-Salpêtrière, qui a consacré des journées entières à notre projet. Cependant, ce n'était pas facile de déterminer précisément à quoi correspondait chaque signal du cerveau sur le plan fonctionnel. L'idée nous est venue de chercher dans la bibliographie. Néanmoins, il est impossible de réaliser manuellement la synthèse de la bibliographie. Il faut savoir que rien que la maladie d’Alzheimer, il y a plus d'un million de publications. Nous avons donc tenté d’extraire de la connaissance à partir de la data, en commençant d'abord avec 5000 papiers scientifiques, mais grâce à un financement Prématuration du CNRS innovation, on a pu passer à 14 000 papiers. Nous avons utilisé des algorithmes pour explorer le langage (TAL) avec deux types d'exploration : une exploration normale du texte et une exploitation plus poussée des articles qui disposent des coordonnées du cerveau. Il faut savoir que les chercheurs qui ont travaillé sur le cerveau étaient visionnaires. Ils ont établi une carte moyenne du cerveau sur laquelle chaque point est identifié dans le cerveau grâce à trois coordonnées x, y et z. Par exemple, il est possible de savoir les coordonnées de la (les) partie(s) du cerveau qui est utilisée pour réaliser des opérations de calculs. Il suffit d'exploiter des images IRM de personnes à qui on a demandé de faire des opérations mathématiques et d’observer les régions les plus actives c’est-à-dire les régions qui émettent un signal plus fort que le reste du cerveau. Grâce à ces piques d’activations, les coordonnées en 3D de ces régions peuvent être identifiés. Ainsi, dans l’article scientifique qui a détaillé cette expérimentation, le nom de la tâche cognitive traitée (dans notre cas opération mathématique) et un tableau avec les coordonnées des pics d’activations correspondants seront identifiés. En répétant le même processus avec d’autres fonctions cognitives et sensorimotrices, nous avons réussi à faire une synthèse des coordonnées et des fonctions cognitives et sensorimotrices auxquelles ils correspondent. Grâce à cette synthèse, nous avons pu réaliser une carte fonctionnelle du cerveau très fine. Grâce à cette carte on peut connaître pour chaque coordonnée les fonctionnalités qui lui sont associées. Dans le cerveau, il n’y a pas une fonction par région. En réalité, une fonction peut activer plusieurs régions du cerveau et inversement une région peut être activée par plusieurs fonctions cognitives et sensorimotrices. Ce travail de synthèse bibliographique constituera l’échelle cognitive.

Quant à l'exploration de l’autre échelle dans notre projet qui est l’échelle transcriptomique/génétique, il faut aussi citer Allen Institute for the Brain Science, où a été réalisé un travail magnifique consistant à détecter les taux de transcription de gènes dans le cerveau. Il s’agit de la détection des taux de transcription d’environ 21 000 gènes au niveau d’environ 1000 régions du cerveau pour 6 cerveaux. Songez à toutes les études qu'on pourrait réaliser avec ces données ! Dans mon cas, ce travail m’a inspiré la réalisation de l’intégration de ces deux échelles à savoir cognitive et génétique. En d’autres termes, créer une manière de communiquer entre des fonctions cognitives et des transcriptions de gènes.

Pour compléter ce travail nous avons créé un atlas des pathologies du cerveau en se basant sur la littérature et un atlas des fibres du cerveau, en se basant sur une base de données partagée d’imagerie anatomique et de diffusion. Pour expliquer cette notion de fibre, rappelons qu’un neurone est constitué du corps du neurone et des terminaisons synaptiques. Ces deux parties sont reliées par une fibre par laquelle l’information est transmise, nous appellerons ces fibres les routes de l'information. L'information vient du corps, et va vers les synapses pour qu’elle soit communiquée à d’autres neurones. L’idée est de constituer les routes et même les autoroutes du cerveau. Par exemple, quelles sont les régions par où passent les fibres, où sont-ils les plus denses ? En d’autres termes, où se trouvent les autoroutes, les routes nationales ou encore les petites routes ? N'étant pas neuroscientifique mais une spécialiste de l’intelligence artificielle et des statistiques, l’idée que j’ai eue et qui peut paraître simple est de considérer que les fonctions cognitives et les transcriptions génomiques peuvent être projetées comme des coordonnées sur une carte. J’ai donc utilisé mes compétences en IA pour associer les fonctions du cerveau aux gènes, pour savoir comment et à quel endroit ces derniers vont s’activer ou s'exprimer. Autrement dit, il s’agit d’associer à partir d'un gène ou d’un ensemble de gènes les fonctions qui activent les mêmes régions où ces gènes s’expriment le plus. J’ai donc réalisé une matrice unificatrice dans laquelle il est possible de passer d'une échelle à une autre et en intégrant de nouvelles informations sur la même carte que j'ai dessinée au départ.

L'amélioration du projet LinkRbrain dans le cadre de l’équipement d'excellence Matrice

Salma Mesmoudi : En 2012, nous étions prêts à passer à une généralisation du projet et à l’ouvrir à d'autres chercheurs. À cette période, j’ai rencontré les membres de Matrice qui est un équipement d’excellence visant à traiter la mémoire individuelle et sa relation dans la construction de la mémoire collective. Ils ont conçu ce projet de manière très interdisciplinaire, c'est-à-dire la mémoire du point de vue historique, la mémoire du point de vue biologique, la mémoire du point de vue sociologique. Matrice a trouvé que le projet LinkRbrain était très intéressant comme outil. C'est un logiciel qui va permettre à un sociologue ou à un historien qui travaille sur un objet de la mémoire de pouvoir comprendre la mémoire d'un point de vue biologique sans qu'il ne soit spécialiste du cerveau. Grâce à un financement de Matrice, la plateforme LinkRbrain permet désormais aux chercheurs :

  • d’effectuer des méta-analyses automatisées de tous les articles scientifiques concernés (5 000 articles) à partir des familles de fonctions sélectionnées, et d’extraire automatiquement des articles tous les tableaux d’activation (en coordonnées Talairach et MNI) ;
  • de visualiser les résultats des méta-analyses automatisées sous formes de cartes d’activation comparatives montrant les réseaux activés dans le cerveau humain pour les différentes fonctions sous-tendant la Mémoire et la Cognition. Le cerveau humain en 3D peut être tourné, zoomé, etc. Pour mieux voir l’ensemble des activations reconstruites, les cartes des activations 2D interactives sont proposées pour comparer les réseaux spécialisés avec plus de précision ;
  • de générer des graphes d’interaction entre les fonctions sélectionnées et toutes les autres fonctions les plus proches dans le cerveau humain. Ces graphes sont particulièrement intéressants pour les collaborations transdisciplinaires puisqu’ils ne demandent aucune connaissance préalable sur l’autonomie cérébrale ;
  • de générer sous forme de liste les valeurs quantifiées de toutes les interactions entre les fonctions de référence (Mémoire autobiographique) et toutes les fonctions les plus proches ;
  • de rendre ses résultats disponibles aux chercheurs ;
  • d’intégrer des bibliothèques de résultats issus de bases de données, en particulier les données ouvertes, ou d’expériences propres au chercheur.

La plateforme logicielle a évolué depuis et comprend désormais quatre modules interactifs qui sont opérationnels sous forme d’une plateforme collaborative d’intégration automatisée des résultats sur Cerveau, LinkRdata, actuellement répartis sur des milliers d’articles scientifiques et plusieurs bases de données expérimentales.

Un projet généralisable à d’autres domaines : la Seconde Guerre mondiale et les attentats du 13 novembre

Salma Mesmoudi : L’année 2019 a été un moment crucial pour le développement du projet, parce que j’ai bénéficié d'un financement du CNRS Innovation qui m’a permis de constituer un groupe de travail et d’augmenter les quantités de données utilisées, de mieux travailler les algorithmes qui font des explorations et de pouvoir généraliser notre projet à d’autres domaines que le cerveau. Dernièrement, nous réfléchissions à adapter le programme en histoire pour la recherche sur la Deuxième Guerre mondiale. Il s’agit d’intégrer des données totalement différentes à savoir des témoignages, des cartes, des déplacements, des mémoires, des données qui proviennent de sites militaires ou de camps. Certaines expertises développées lors de la réalisation de ce projet ont aussi été utilisées pour évaluer l’état psychologique et émotionnel de la population française après les attentats du 13 novembre. Le programme 13  novembre[5] vise à récolter le témoignage d’environ 1 000 personnes qui ont un lien sociologique et aussi géographique plus ou moins proche des événements terroristes du 13 novembre. Il s’agit d’explorer des témoignages en français qui sont récoltés sous forme d'interviews avec des réponses à des questions précises, mais aussi des témoignages libres. Je co-dirige actuellement une thèse qui utilise ces témoignages afin de caractériser la pathologie du stress post-traumatique à partir d’un texte. Il s’agit de déterminer si une machine peut classifier les témoignages en se basant sur des marqueurs textuels du trouble du stress post-traumatique.

Les difficultés rencontrées pour les recherches transdisciplinaires

Salma Mesmoudi : Il ne faut pas occulter les problèmes auxquels nous avons été confrontés sur ces projets transdisciplinaires. Par exemple, le dernier projet cité implique une spécialisation en intelligence artificielle et surtout en deep learning pour l'exploration des témoignages, mais aussi une expertise linguistique, afin de parvenir, avec l’aide de linguistes, à caractériser les textes. Il nécessite aussi une expertise psychiatrique parce qu'on travaille sur une pathologie du cerveau qui est le trouble du stress post-traumatique. Sans oublier le contexte social et mémorial de l'événement qui est présent et qui va aussi avoir un impact sur ces témoignages. Il y a plusieurs disciplines qui doivent accompagner le même projet, et il est très difficile de faire communiquer ces différentes disciplines entre elles. Par exemple, les termes qui sont utilisés n’ont pas la même définition à travers les différentes disciplines. Le mot résilience est un mot qui, à chaque fois qu'il est évoqué dans un séminaire transdisciplinaire, provoque de très grandes discussions parce que chaque discipline l'utilise différemment.

Une autre difficulté est celle du manque de financement des recherches utilisant les données ouvertes. Faire de la recherche interdisciplinaire n’est souvent possible que par l’utilisation de données ouvertes (l’acquisition de nouvelles données est coûteuse). Cependant, on se confronte souvent à la difficulté de justifier l’utilisation des données qui sont récupérées gratuitement, plusieurs chercheurs n’ont pas confiance dans les données ouvertes. Or, à mon sens, cela constitue une très grande force pour ces projets. Pour développer une politique européenne tournée vers les données ouvertes, il faut des projets démonstrateurs comme linkRdata qui prouvent que l’ouverture des données participe à l'avancée de la recherche.

Tirer le meilleur parti de Chat GPT

Salma Mesmoudi : Tout le monde parle de Chat GPT aujourd'hui et je pense qu'on ne devrait pas le considérer comme un ennemi, mais plutôt l’utiliser. Je vais d’ailleurs essayer d’identifier comment je pourrais tirer le meilleur parti de cette technologie dans l’avancée de mon projet. À mon sens, l'éducation aux nouvelles technologies est primordiale. Je vais citer à cet égard une phrase de Jean Piaget qui correspond incroyablement à la situation actuelle : « l’objectif principal de l’éducation dans les écoles devrait être la création des hommes et des femmes qui sont capables de faire de nouvelles choses, pas simplement répéter ce que d’autres générations ont fait ; des hommes et des femmes qui sont créatifs, inventifs et découvreurs, qui peuvent être critiques, vérifier et ne pas accepter tout ce qu’on leur offre ».

Notre système éducatif compte plusieurs points positifs, mais certains points devraient peut-être s'adapter à tout ce que la science offre. Dans la phrase de Piaget ce qui m'a le plus intéressé c’est l’idée que nous ne devrions pas simplement répéter ce que d'autres générations ont fait. Certes, on doit savoir ce que les autres ont réalisé afin de pouvoir le reproduire. Cela étant, on doit aussi aller de l'avant. Dès lors, si on a des outils qui peuvent nous aider à synthétiser le passé pour pouvoir avancer, pourquoi ne pas les utiliser ? Le premier avantage de Chat GPT pourrait consister en l'assistance pédagogique. Prenons un exemple : Google est un producteur de données. Quand on pose une question dans Google ou un mot clé, Google sort une liste. C’est ensuite à nous de réaliser une synthèse. Au contraire, Chat GPT opère la synthèse (la moyenne) de ce qui est le postulat trouvé le plus probable. Bien entendu, il y a des inconvénients. Quand il ne trouve pas, il invente ! Il intègre de ce fait des éléments qui ne sont pas vrais. Il me semble dès lors que sa première utilisation serait importante dans le développement du sens critique de la nouvelle génération.

Avec l'intelligence artificielle en général, on rentre dans une nouvelle ère et on ne sait pas encore ce qui va changer. Nous pensons qu'il y aurait des métiers qui vont être supprimés et d'autres métiers qui vont se créer. C’est donc la raison pour laquelle j’estime que l’on devrait intégrer l’IA et accompagner nos étudiants dans ce changement qui est en train de se préparer. Prenons l’exemple de l'apprentissage des langues. Avez-vous déjà utilisé des applications d’apprentissage de langues basées sur un concours de l'intelligence artificielle ? Ce sont des applications qui vont permettre un apprentissage personnalisé des langues. Ils accompagnent l’apprenant en introduisant des connaissances qui s’adaptent continuellement avec son rythme personnel de progression, grâce à des évaluations de son niveau en temps réel. Pourrait-on intégrer, avec l’aide et l’accompagnement des enseignants, ce genre d'applications pour améliorer les apprentissages en général ?

Pour autant, l'intelligence artificielle semble de plus en plus forcer et créer des clivages importants dans plusieurs domaines comme les domaines social, cognitif et économique. Il devient impératif de rationaliser notre peur en observant et en accompagnant tous ces développements. Il me semble essentiel de développer une gouvernance mondiale sur les algorithmes qui sont en train de se développer, mais aussi au niveau des données pour garantir que les progrès soient partagés. Il faut réguler l’intelligence artificielle, réfléchir et travailler plus sur la notion de la responsabilité. Par exemple, dans le domaine de la santé, il y a le problème de la responsabilité dans le diagnostic. L'IA ne peut pas être responsable d'un diagnostic. Pareil pour le jugement pour le domaine juridique. Il faut aussi garantir que les algorithmes et les données soient transparents et qu'on sache, pour chaque résultat et chaque développement, sur quoi ils se sont basés. En un mot, j’incite nos institutions à avoir leurs propres chartes de l’utilisation de l’IA.