Ces dernières années, s’il y a bien un métier dont on entend parler partout, c’est celui de Data Scientist. Il mélange techniques informatiques pour la gestion de « grosses” bases de données et compétences mathématiques pour l’analyse et la modélisation d’un problème lié à ces données. Il n’est pas étonnant que les docteurs (en mathématiques, physique, biologie, etc.) s’y intéressent.
Malheureusement, les docteurs sont encore trop souvent mal perçus dans le monde de l’entreprise, alors qu’ils se révèlent être de bons Data Scientists, même lorsque leur sujet de thèse est très théorique.
Dans cet article, je partage mon expérience sur la transition entre doctorat et Data Science. Je pense que cela peut être une aide précieuse pour de jeunes docteurs qui veulent s’orienter vers ces métiers. Il me semble également important que les entreprises soient sensibilisées à cette formation qu’est le doctorat.
Ce qui se conçoit bien s’énonce clairement
Tout docteur ou doctorant vous le dira, le sujet d’une thèse et surtout la définition de son sujet a une importance maximale. Il est primordial que le problème soit bien posé (donc bien compris). Il vaut mieux passer plus de temps à bien définir le problème, plutôt que de le faire vite et de ramer sur la résolution d’un problème mal posé.
C’est vrai pour une thèse, ça l’est aussi pour un projet de Data Science.
La plupart du temps, une thèse commence par une question que l’on se pose sur un problème particulier. Parfois une question théorique, parfois un problème pratique, parfois les deux. C’est généralement vague et impossible à résoudre en l’état.
Le sujet de ma thèse à ses débuts était :
« Comment peut-on coordonner plusieurs agents (preneurs de décisions) pour maximiser un certain critère de performance [1] ? »
Pour un projet de Data Science (en entreprise), un des sujets que j’ai souvent rencontrés est :
« Comment maximiser le ROI [2] ?«
Quel que soit le point de départ, il est clair que le problème a besoin d’être précisé. Pour mon sujet de thèse, plusieurs questions se sont posées :
- Qu’entend-on par coordonner ?
- Quels sont les actions que peuvent réaliser les agents ?
- Comment est défini le critère de performance ?
Pour le projet Data Science, les questions permettant de mieux comprendre ce à quoi on doit faire face sont très similaires :
- Comment est défini le ROI ?
- Quelle(s) action(s) influent sur ce ROI ?
- Comment mesurer l’amélioration ?
Ces sous-questions permettent in fine d’obtenir une définition scientifiquement (mathématiquement) concrète du problème à résoudre.
Pour ma thèse, après quelques (nombreuses) itérations, la réflexion a abouti à quelque chose de plus (scientifiquement) concret : revisiter un problème de Théorie de l’Information bien connu (le paradigme de Shannon) en changeant certaines hypothèses, notamment sur le critère de performance.
Pour un projet de Data Science, la maximisation du ROI peut vouloir dire de nombreuses choses. Un exemple déjà vu est la création d’un score permettant de qualifier des individus, dans le but de cibler intelligemment ces individus lors de campagne marketing.
“A problem well stated is a problem half-solved.”
Cette étape d’affinage du problème est cruciale à la bonne progression d’une thèse ou d’un projet. Impossible d’arriver à une bonne solution en partant d’un mauvais problème. Si vous voulez construire un avion, et que votre problème est défini comme “construire un vélo et lui ajouter des ailes”, vous n’arriverez JAMAIS à construire un avion sans changer cette définition.
Généralement, une première version bien définie du problème voit le jour. La définition pourra être amenée à évoluer au fur et à mesure des recherches du doctorant.
À partir de cette première version, il est souvent judicieux (voire indispensable) de décomposer le problème. On commencera par faire des hypothèses simplificatrices, qui amèneront (si tout se passe bien) à un premier résultat. Ce dernier pourra être soumis à une conférence (les papiers de conférence étant généralement plutôt courts, entre 4 et 8 pages).
Ensuite, l’idée est de se débarrasser petit à petit des hypothèses simplificatrices pour arriver au résultat voulu initialement. Il sera diffusé dans un papier plus long, et soumis à un journal (international).
En Data Science, on peut directement appliquer cette méthodologie. On commencera par une phase de prise en main des données (compréhension des données originales, identification d’éventuels défauts – trop peu de diversité dans les données par exemple -, transformation de la donnée, etc.), puis par un prototype simple, une version 1 suffisamment intéressante pour être mise en production. Puis, à partir de cette version, des évolutions pourront voir le jour.
L’acquisition des bons outils
Pour arriver à un problème bien défini, ainsi que pour le résoudre, il y a une certaine méthodologie. Globalement, elle consiste à se documenter sur ce qui a été fait sur le sujet, et comment. En thèse, nous lirons des papiers de recherche, des articles de blog, des articles/questions sur du code. Le but est d’avoir une vision globale sur tout ce qui est en relation avec le problème que l’on se pose :
- Quelles sont les difficultés techniques principales ?
- Quelles (bonnes) idées peuvent être ré-utilisées, ou adaptées ?
- Quelles simulations numériques peuvent être faites pour aiguiller les recherches ?
- Quel serait un ou plusieurs cas pratiques pertinents (dans le cadre d’un sujet à la fois théorique et appliqué) ?
Ces phases sont, quand on a comme moi la chance d’avoir un directeur de thèse impliqué, accompagnées par des discussions régulières avec celui-ci pour expliquer la direction prise, les pistes explorées ou à explorer, les points bloquants, etc. Cela permet de nourrir la réflexion et d’avancer.
Tout ceci peut se transposer sur un projet de Data Science : il est souvent nécessaire de faire des recherches sur le code, et parfois de lire des papiers de recherche pour comprendre des concepts et les implémenter.
D’un point de vue technique, l’un des objectifs de la recherche est d’innover donc de ne pas réutiliser des résultats ou des algorithmes tels quels. L’existant est souvent réinterprété, modifié, amélioré pour le sujet en question.
Les problématiques en industrie sont plutôt d’avoir un résultat final, quelle que soit la technique utilisée. Il est même préférable d’utiliser quelque chose qui a déjà été implémenté plutôt que de tout coder ex nihilo. Cela fait gagner du temps et c’est rassurant de savoir que quelqu’un a déjà utilisé cette implémentation (et que cela peut fonctionner).
Ceci étant, ce qui est déjà implémenté est rarement exactement adapté au cas d’usage, et il est également nécessaire de modifier/améliorer ces solutions pour résoudre le problème.
Il existe tout de même des différences notables entre thèse et projet, comme listées ci-après.
La valorisation du travail
Dans le monde de la recherche fondamentale, il est grandement encouragé d’avoir un résultat qui implique une création (une nouvelle démonstration pour un nouveau résultat, un nouvel algorithme) plutôt que la réutilisation d’un modèle “simplement” appliqué à la problématique que l’on cherche à résoudre. Il y a de plus la structure et les compétences pour juger de la pertinence scientifique d’un nouvel algorithme. Une nouveauté sera validée par plusieurs chercheurs experts dans le domaine en question, et n’arrivera en entreprise que si elle est pertinente.
Un algorithme développé en entreprise sera la plupart du temps utilisé directement et compris dans le détail par un tout petit nombre de personnes, ce qui peut poser le problème de sa pertinence.
Le monde de l’entreprise valorisera plutôt le produit final, et moins la technique utilisée. Il vaudra mieux avoir quelque chose dont on a des preuves de fonctionnement, quitte à réutiliser l’état de l’art pour le faire. Le critère le plus important sera plutôt la fiabilité de la solution.
Pour les thèses co-encadrées par une industrie (thèse CIFRE), l’état d’esprit est plutôt un mélange des deux, mais peut se rapprocher de celui d’un projet de Data Science.
Les contraintes de temps
En industrie, le temps sur un projet est généralement plus court et moins flexible qu’en thèse. Pour ma part, être dans un laboratoire de R&D au sein d’une entreprise permet d’avoir le temps de creuser un sujet, de travailler sur les mêmes outils et mêmes enjeux métiers. L’approche est voisine d’un projet de recherche.
C’est un peu différent pour un Data Scientist qui intervient en mission chez un client : il y a généralement un temps fixe (relativement plus court) pour creuser les sujets, et il y a plus de diversité sur les technologies utilisées (qui peuvent changer en fonction des clients) ainsi que sur les enjeux métiers.
Toujours est-il qu’une thèse a tout de même un temps limité et le doctorant doit tenir compte des dates limites de soumissions pour les conférences. Le futur docteur saura donc bien gérer son temps.
Le doctorat : périodes fastes mêlées de grands moments de doute
Pour obtenir son doctorat, il est nécessaire de soumettre pour publication des papiers de recherche. Ceux-ci seront passés en revue par des experts de la communauté, ce qui implique un niveau de qualité élevé de la part du futur docteur. L’exigence de qualité est ancrée en tout bon docteur.
La thèse est également très formatrice pour la communication. Un doctorant passe une grande partie de son temps à discuter de ses résultats : résumés des recherches avec son directeur, échanges avec son équipe, présentations lors de conférence, etc.
Ces interactions sont en général techniques car elles se font avec des personnes de la communauté, donc possédant un niveau scientifique élevé. Un docteur sera donc a priori moins habitué à vulgariser. Néanmoins, certains thésards ont la possibilité de donner des cours, ce qui permet d’avoir un très bon niveau de vulgarisation.
Une des grandes plus-values d’un doctorat, parfois peu visible mais bien réelle, est l’appréhension des difficultés. Tout doctorant traverse des périodes fastes mais aussi de grands moments de doute. Après cette expérience il saura donc bien mieux gérer ces aléas, et sera capable de se sortir de toutes sortes d’impasses. On devient très persévérant à force d’être dans l’obligation de ne pas rester bloqué.
Il reste cependant des défis pour un nouveau docteur. Le sujet traité en thèse fait partie de son domaine d’expertise. Le socle de connaissances existe et permet d’orienter les recherches. Cela ne sera pas nécessairement le cas sur un projet de Data Science. Auquel cas il est essentiel d’avoir une bonne collaboration avec les interlocuteurs du métier. Le docteur apportera la méthodologie de recherche et la capacité à traduire en termes mathématiques les problèmes posés, les connaissances de terrain seront amenées par les experts métiers et permettront de définir correctement le sujet.
Certains chefs de projet peuvent imposer un temps de réflexion en amont limité, ce qui oblige à beaucoup bricoler lors de la réalisation du projet. Dans ce cas, le docteur Data Scientist devra faire comprendre qu’une approche de type recherche est bénéfique, même si cela va à l’encontre des principes des projets de l’entreprise.
Pour conclure, il faut rappeler qu’une thèse est essentiellement un projet de (minimum) 3 ans sur lequel on est totalement responsable. C’est une expérience enrichissante et formatrice sur un grand nombre de compétences. De plus, on alterne phase de recherche et phase de communication, ce qui est globalement la même chose que pour un travail de Data Scientist.
[1] Cette question était posée dans un certain contexte, pas détaillé ici par soucis de brièveté.
[2] ROI, ou Return On Investment (Retour sur Investissement).