--

La nouvelle science des données appelle-t-elle un nouvel art du secourisme ?

Les vagues de titres et couvertures de magazines sur les big data sont déjà recouvertes par le tsunami de l’IA (intelligence artificielle), dont la victoire sur l’IH (H d’humain) ne serait plus douteuse après qu’un algorithme (Liberatur, encore dit «  superordinateur  » dans les médias français) a remporté un tournoi de poker face aux champions de la discipline : «  Pour la première fois, l’intelligence artificielle dame le pion aux champions du jeu de cartes  »1 (Le Parisien, 28 janvier 2017)

Cette nouvelle science libère le traitement des données de l’emprise des statistiques, et donc de celle des statisticiens. Le raz-de-marée annoncé dans la Lettre blanche qui allait emporter les statisticiens publics a bien eu lieu2. La formation initiale des statisticiens en est bouleversée puisqu’il s’agit aujourd’hui de mettre sur le marché (international) des data scientists à la pointe de l’invention de nouveaux algorithmes (ndlr : un correcteur orthographique du français propose «  scientistes  » ce qui tend à montrer que tout n’est pas perdu de ce côté).

La critique de l’usage du nombre dans le débat public peut-elle rester à l’abri sans se réinventer, sans lorgner avec nostalgie du côté du data checking qui lui-même est devenu la proie des développeurs d’algorithmes3  ?

Le premier ressort de la critique pénombrienne était le dévoilement des enjeux de méthode dans la fabrication de nombres qui, coupés de leur origine plus ou moins savante, vivent une vie médiatique incontrôlée. Ce qui allait à l’encontre de la traditionnelle revendication d’irresponsabilité des statisticiens publics ou autres producteurs de données, permettant à ceux-ci de reporter la faute sur d’autres acteurs : les «  données  » sont ce qu’elles sont, aux utilisateurs d’en faire un bon usage.

Il n’était alors pas facile d’expliquer, dans cette démarche de dévoilement, que les statisticiens eux-mêmes n’étaient pas toujours en capacité de faire toute la lumière sur ce que les techniques informatisées de traitement des données font à leur matériau de base (des informations quantifiées ou des observations codées dans le langage des variables). Les traductions imagées de ces traitements complexes (analyses factorielles, modèles de régression multiple, log-linéaire...) étaient elles-mêmes plus des techniques de promotion des développeurs de telles méthodes que des ressources pour conserver un regard critique sur leur emploi.

Ces méthodes déjà peu compréhensibles sont aujourd’hui submergées par l’inondation des algorithmes. Ceux-ci restent des objets étranges qui doivent leur réussite à deux choses au moins :

D’une part, fruit d’une production commerciale, leur contenu précis est protégé légalement de la concurrence. Les défenseurs des logiciels dits ouverts ne parviennent pas à imposer ce principe aux innovateurs qui ne restent éventuellement dans l’univers du «  gratuit  » que le temps de parvenir à la rentabilisation à hauts profits de leurs inventions. 

D’autre part, et là est le plus sensible pour tout esprit honnêtement critique, la revendication de non compréhensibilité de l’algorithme est entrée dans l’habitus des data-scientistes. Le nec plus ultra est un algorithme qui remplit une tâche aussi complexe soit-elle, sans qu’on puisse expliquer comment il y parvient. Il n’est plus question que de réseaux de neurones profonds, de deep learning (apprentissage profond).

Le but visé n’est plus de «  mesurer pour comprendre  » selon la devise de l’Insee mais d’être capable de mesurer sans comprendre. Pénombre regrettait dans son éditorial de la Lettre blanche n°58 ce choix de l’Insee, fait à rebours du conseil de G. Bachelard : «  Il faut réfléchir pour mesurer et non pas mesurer pour réfléchir  ». Cap au pire…avec l’IA. 

Cette ineptie étant admise, on peut alors vendre des livres à succès (La guerre des intelligences du Dr Laurent Alexandre, ed. JC Lattès, octobre 2017, 20,90€) ou produire des films et séries sur la très prochaine victoire des robots sur l’humanité.

L’homme sage peut-il encore préserver quelque chose de son humanité au milieu de ce dérèglement de la raison  ? Dans ce contexte où la posture critique est l’objet d’une récupération généralisée par les promoteurs de l’IA eux-mêmes… Ainsi, selon le «  Docteur  » Laurent Alexandre, l’école aura disparu en 2035 en devenant une branche de la médecine, «  utilisant les immenses ressources des neurosciences pour personnaliser d’abord la transmission et optimiser ensuite bioélectroniquement l’intelligence  »4.

La science (les sciences) des données se retrouve alors en position paradoxale : elle doit trouver une explication au fait que les algorithmes (mis au point par des humains) «  réussissent  » ce qu’il leur est demandé de faire (trouver la bonne réponse Y en fonction d’une entrée X de très grande dimension), au-delà du compréhensible : «  Les réseaux de neurones tirent donc parti de ces symétries en calculant des invariants qui réduisent efficacement la dimensionnalité de X sans perdre d’information sur la réponse Y. (...) Les réseaux de neurones semblent aussi capables d’apprendre à calculer des invariants relatifs à des transformations beaucoup plus complexes et que l’on comprend encore très mal. (...) La compréhension de ces groupes de symétrie est un enjeu qui va bien au-delà des applications de l’apprentissage. Si l’on parvient un jour à les spécifier, on comprendra mieux la géométrie des données en grande dimension. (...) La comprendre est, à mon sens, le graal des sciences des données.  » (Stéphane Mallat, entretien La Recherche5, février, 2018)

Les affaires reprennent, l’optimisme règne. L’école va disparaître et les savants sont partis à la recherche du Graal. Et, Pénombre alors ?

Bruno Aubusson de Cavarlay


1. Encore que, après avoir damé le pion au champion d’un jeu de cartes, l’algorithme a encore du chemin à faire pour arriver là où la main de l’homme jamais n’a mis le pied.

2. Lettre blanche n°45 édito, LB n°46 «  Ornithologie statistique  ».

3. Lettres 62 et 63, éditos.

4. Le Dr Alexandre passe avec succès le test Pénombre du «  1 jeune de moins de 25 ans sur 4 au chômage  » et avance une explication du «  bon  » taux : «  Avant même la révolution des automates intelligents, notre système scolaire et de formation est de toute façon inadapté. Symptôme de cette inadaptation, en 2017, à la veille du tsunami de l’IA, 17% des jeunes Français, entre quinze et vingt-neuf ans, sont des NEETs (young people Not in Education, Employment, or Training)  ». On voudra bien lui pardonner ce « Français » mis pour «  en France  ».

5. Stéphane Mallat tente de ne pas passer pour le fossoyeur des disciplines mobilisées par l’IA et parle de sciences des données au pluriel. L’annonce de couverture du mensuel ne relaie pas cette fausse modestie et titre « Maths. La nouvelle science des données. Création de la chaire au Collège de France avec Stéphane Mallat ». L’intéressé se présente par ailleurs comme le coordonnateur du nouveau centre pluridisciplinaire en sciences des données à l’Ecole normale supérieure.