Pour le décloisonnement de la Data Science

La Data Science fait peur et cela est dû à un malentendu que plusieurs médias ont véhiculé dernièrement. En effet, il existe une classe d’outils de machine learning, le deep learning, qui a une bonne performance dans l’apprentissage et cela cause une rupture de compréhension.

De la Science, pas de la Science-fiction

Ceux qui n’ont pas accès à la compréhension des actions mathématiques exécutées par un réseau de neurones profond, l’outil phare du deep learning, ne peuvent que considérer la chose comme s’apparentant à de la magie, surtout si cela leur est présenté comme une nouveauté des dernières années sans bases dans les avancées scientifiques des siècles derniers.

On a ainsi l’impression que l’intelligence artificielle (IA) est une fatalité qui s’impose à l’humanité et provoque alors le sentiment de devoir l’abattre, comme une sorte de bête que la nature aurait mis sur le chemin de notre évolution.

Concrètement, un réseau de neurones profond se rapporte à des tests statistiques d’une multitude de modèles d’apprentissage automatique afin de trouver le plus performant. Et même si son nom suggère que cet algorithme statistique fonctionne comme notre cerveau, il doit en réalité ce nom seulement à la similitude que ces fondateurs ont remarqué entre le dessin qui sert à le représenter et la forme de nos réseaux de neurones : une grille de points reliés entre eux et qui se transfèrent de l’information.

Ceux qui maîtrisent les mathématiques derrière le deep learning savent bien que ces outils sont loin de raisonner comme nous le faisons. Tout modèle de machine learning, s’il n’est pas calibré (terme technique pour dire « fixer les paramètres de l’outil qui sera utilisé pour prévoir le résultat ») à partir de données valides, ne peut que se propager dans un réseau de neurones. Ils sont donc conscients de l’importance de rappeler que l’IA est toujours créée par l’humain.

Essayons de mieux appréhender cela à travers quelques exemples. Avec un modèle de machine learning, je peux prévoir que vous allez avoir mal à la tête si vous vous endormez avec des chaussures. Avec un autre, je peux vous prouver que la plupart des parents font le choix de mettre les enfants à la crèche. Ou encore expliquer que les plus besogneux désirent moins le luxe que les gens qui gagnent bien leur vie. Dans le premier cas, il me suffit de ne pas inclure dans mes données d’entrée l’information concernant le fait que la personne soit malade et/ou en état d’ébriété. Dans le deuxième, il me suffit de collecter mes données à des endroits proches d’une crèche aux heures d’entrée et de sortie des enfants. Dans le dernier, il me suffit d’inclure parmi les données les objets achetés en oubliant de considérer leurs prix.

Comment un outil statistique qui choisit parmi de tels modèles pourrait ajuster tout seul les problèmes dus à des sources d’information incomplètes, discutables ou erronées ?

Un bon Data Scientist sait interpréter les paramètres de ses modèles

Ce ne sont que des exemples évidents, mais même en mettant de la bonne volonté dans le choix et la préparation des données « en entrée », des facteurs peuvent être ignorés. C’est pour cela qu’un bon Data Scientist sait interpréter les paramètres de ses modèles, et ne se contente pas de se fier seulement à des évaluations statistiques. A titre d’exemple, si les paramètres de mon modèle me disent que la plupart des gens préfèrent se retrouver à la rue plutôt que renoncer à un achat de voiture, peu importe si je sais que j’ai bien utilisé les mathématiques et que je pense avoir utilisé toutes les données qu’il fallait, je reviens sur mes réflexions pour trouver quelles informations ont été oubliées puisque, pour connaître pas mal de monde différent, cette conclusion me semble peu logique sur le comportement humain.
Un réseau de neurones profonds n’est pas capable de tenir seul ce raisonnement et de plus ce type d’algorithme ne facilite pas (et, à ma connaissance, n’autorise même pas à ce jour) ce type de réflexion sur les paramètres pour le Data Scientist.

Interpréter le réel : un enjeu humain…

Les machines ne sont donc pas près de raisonner seules à ce stade, même lorsqu’il ne s’agit que d’une seule tâche. Soit il s’agit d’un problème fini (un jeux comme le Go, par exemple, ou un phénomène purement physique, ou même une image, un son, etc. c’est à dire quelque chose pour laquelle on a moyen de définir de façon sûre tous les éléments à prendre en compte), soit il y a nécessité d’un raisonnement humain pour que les données sur lesquelles s’appuient l’intelligence artificielle (aussi bien dans sa calibration que dans son utilisation) puissent représenter correctement la réalité.

Je ne dis pas que nous ne verrons jamais une IA capable de réfléchir, je n’en sais rien, mais je pense que le chemin est long avant de pouvoir commencer à envisager une véritable intelligence artificielle autonome.

Je ne dis pas non plus qu’on doit se concentrer sur aujourd’hui sans penser à demain. Je sais que les neurosciences aussi avancent fortement dans la compréhension du cerveau et la retranscription de ses mécanismes. Je sais de plus qu’une synergie entre l’économétrie et les neurosciences permet des avancées importantes sur le sujet depuis plusieurs années. Cependant, à ma connaissance, le seul phénomène pour lequel les neurosciences n’ont pas de pistes, et pour lequel les physiciens experts en électromagnétisme semblent mieux placés pour apporter des réponses, c’est la naissance d’une idée. Ils commencent à comprendre le raisonnement, les émotions, les goûts… mais pas la pensée. Je me demande donc comment on pourrait être menacé de façon imminente par la reproduction d’un phénomène que nous n’avons pas encore compris.
Puisque nous avons du temps, il est important qu’on s’implique tous d’une façon ou d’une autre dans la discussion autour des intelligences d’aujourd’hui. Certes en imaginant les éventuelles conséquences pour demain mais en se focalisant avant tout sur celles qu’elles ont déjà sur notre présent.

Si l’on va trop vite en besogne aujourd’hui on risque de laisser certains imposer leur vision de l’IA à l’humanité sans qu’on en ait le contrôle.

Changer la définition même de l’intelligence

Est-ce que cela signifie que l’on doit tous devenir Data Scientist et développer des expertises en statistiques et informatique ? Non !

L’objectif que la Data Science doit se fixer si l’on souhaite qu’elle soit utile à l’humanité demain est celui de venir en aide à l’être humain afin de comprendre et satisfaire les besoins de chacun en permettant la redistribution équitable des ressources et la collaboration entre les membres de notre humanité.

Ce n’est que si l’on s’éparpille à tous développer des outils exploitant la Data Science et visant à augmenter nos propres ressources, en cherchant à manipuler et/ou à punir les réfractaires aux normes arbitraires imposées par des intérêts privés que la Data Science deviendra une arme demain. Et c’est là, quand tout être humain voulant survivre à la phase d’évolution en cours devra s’armer en adhérant à une pensée unique, que nous nous transformeront nous-mêmes dans ces machines froides comme le Terminator que nous redoutons tant.

Au contraire, si nous choisissons dès aujourd’hui de collaborer, la Data Science peut nous permettre de changer la définition même de l’intelligence de demain en nous permettant de rendre l’intelligence sociale plus importante pour survivre à l’évolution de l’intelligence logique-rationnelle. Cela nous permettrait enfin de cohabiter en harmonie sur cette terre malgré nos différences.

Trois actions concrètes pour survivre !

Pour que cela ne sonne pas comme une utopie naïve, voici trois actions concrètes qui selon moi doivent être mise en place dès aujourd’hui pour essayer d’atteindre un jour ce but :

Nous devons redonner à la donnée l’importance qu’elle a et consentir à suffisamment d’efforts pour comprendre correctement la réalité qu’elle représente avant de commencer la mise en place de n’importe quelle IA, d’autant plus lorsque son utilisation peut impacter négativement ne serait-ce qu’un seul être humain.
Le concept de modélisation statistique devrait être vulgarisé à large échelle pour que tout le monde ait un minimum de connaissances de ce qui se fait avec ces outils mathématiques. Notamment tout citoyen devrait savoir quelles décisions sont prises à son sujet par l’utilisation d’une intelligence artificielle quelconque pour pouvoir remettre en cause les projets discutables.
Il faut privilégier l’hétérogénéité dans la composition des équipes en charge du développement des outils exploitant la Data Science de façon à permettre à ces équipes d’embrasser une vision plus large lorsqu’elles réfléchissent aux impacts que les outils qu’elles développent auront sur les individus. Une équipe trop homogène risque en effet d’avoir un raisonnement biaisé lorsqu’elle pensera à ceux qui ne lui ressemblent pas.

Il est temps qu’on rassemble nos efforts et qu’on décloisonne les univers qui composent notre société. Notamment je crois qu’il faut que le monde académique et celui de l’entreprise commencent à collaborer sur le sujet de la Data Science.