Passer

Qu’est-ce que Dataiku ?

Dataiku DSS (Data Science Studio) est une plateforme logicielle collaborative de data science destinée aux professionnels de la donnée : data scientists, data engineers, data analysts, data architects, CRM et équipes marketing. C’est un environnement de travail centralisé qui permet de manipuler facilement les données, d’explorer et de partager rapidement les analyses, de faire des prédictions et de créer des modèles d’intelligence artificielle (IA) en quelques clics. 

La plateforme est également conçue pour simplifier l’automatisation et l’industrialisation des chaînes de traitement, à savoir la collecte des données, la préparation des données, l’entraînement, le test et le suivi des modèles d’IA ainsi que la phase de mise en production.

La plateforme est utilisée pour un large panel d’applications telles que la segmentation des clients, la détection des fraudes, le scoring client (calcul du taux de désabonnement, scores d’appétence, scores de risque, etc.), le deep learning et l’analyse du traitement du langage naturel (NLP).

Quelle est l’histoire de Dataiku ?

Dataiku DSS est le nom éponyme de la plateforme d’IA développée par Dataiku, une startup fondée en 2013, aujourd’hui basée aux États-Unis. Fondée à Paris par Florian Douetteau (actuel CEO), Clément Stenac, Thomas Cabrol et Marc Batty, l’entreprise connaît une croissance rapide depuis sa création. En 2015, Dataiku s’est installée à New York.

Après avoir levé 101 millions de dollars en 2018, Dataiku a encore levé 400 millions de dollars en 2021 pour une valorisation totale d’environ 4,6 milliards de dollars. La startup est alors devenue une licorne et compte aujourd’hui plus de 1000 employés et 300 clients parmi les plus grands groupes mondiaux. Parmi eux, les entreprises françaises Accor, BNP Paribas, Engie, le groupe LVMH, mais aussi Morgan Stanley, UBS et Walmart.  Les investisseurs de la société sont CapitalG (Google), Snowflake Ventures, Battery Ventures, etc.

La plateforme compte actuellement plus de 45 000 utilisateurs actifs et plus de 450 clients dans le monde.

Quelles sont les principales fonctionnalités de la plateforme Dataiku ?

Dataiku DSS possède plus de 90 fonctionnalités qui peuvent être classées selon les thèmes principaux suivants :

Intégration et connectivité de Dataiku DSS dans d’autres infrastructures

La plateforme s’intègre avec Hadoop, Spark, SQL, Teradata, et est disponible sur les places de marché AWS, Azure et Google Cloud platform.

La détection des schémas et formats de données est automatique. Ainsi, Dataiku est capable de reconnaître nativement une variable numérique, une chaîne de caractères, un âge, une date, ou encore une localisation géographique.

De plus, il y a une décorrélation entre le stockage et le traitement des données : les données restent là où elles sont. L’accès aux données est donc instantané et sans nécessité de transférer les données pour les traiter.

Plugins

Dataiku DSS est livré avec des composants visuels standard pour se connecter aux données, aux processus et aux modèles de formation. Mais Dataiku offre également la flexibilité d’implémenter des composants personnalisés, de les packager et de les partager avec d’autres. Ces composants personnalisés sont disponibles sous forme de plugins. Chaque plugin consiste en une interface graphique et un backend programmé par le développeur en R ou Python.

Il existe une galerie de plus de 100 plugins dans le Dataiku Plugin Store, fournissant des applications de données dans de nombreux domaines tels que la traduction linguistique, la météo, les systèmes de recommandation, l’importation/exportation de données et les interfaces graphiques prêtes à l’emploi.

Préparation optimisée des données

L’interface graphique de Dataiku DSS accélère le traitement des données grâce au nettoyage et à l’enrichissement interactifs des données. Des transformations contextuelles sont automatiquement proposées par Dataiku en fonction du type de données. Par exemple, à partir d’une date, Dataiku propose de calculer un âge. A partir d’une adresse, Dataiku est capable d’extraire le numéro et le nom de la rue, le code postal ou la ville. Il existe plus de 80 processeurs visuels qui peuvent être activés en quelques clics et sans code. Cette console graphique permet également, par de simples clics, d’interagir avec les données pour des filtrages, des transformations ou des résumés statistiques.

Développement intégré

De nombreux langages sont supportés par Dataiku DSS : Python, R, Scala, PySpark, SparkR et SparkSQL, SQL, Hive, Pig et Impala. Dataiku s’adresse donc à tous types d’utilisateurs quel que soit leur bagage technique ainsi qu’à tous les niveaux d’expertise.

Machine learning & AI

La plateforme comprend une interface graphique complète (appelée Datalab) dédiée au développement de modèles de machine learning. Cette interface permet la configuration des modèles, la visualisation des performances des modèles et une lecture simplifiée des résultats produits par les algorithmes.

Il existe également un module pour l’automatisation du machine learning (AutoML). Pour information, d’autres plugins d’IA existent pour le deep learning ou le traitement du langage naturel.
Pour en savoir plus sur AutoML, nous vous invitons à consulter cet article : Qu’est-ce qu’AutoML ?

Collaboration et gouvernance

Dataiku DSS intègre des fonctionnalités permettant d’optimiser le partage et l’échange au sein des équipes de données et des équipes commerciales. Il s’agit notamment d’outils de gestion de projet, de chat, de wiki et de versions. 

Pour la gouvernance des données, la plateforme fournit un catalogue centralisé de données, de commentaires, d’éléments et de modèles. De plus, toutes les activités des utilisateurs sont affichées sur un tableau de bord dédié et la sécurité est garantie par d’autres fonctionnalités (telles que, par exemple, la gestion des autorisations, la gestion des journaux ou le contrôle de la taille des données et de l’activité des instances). Dataiku répond à toutes les exigences en matière de gouvernance des données et d’audit.

MLOps

Dataiku DSS gère le déploiement des modèles : à la fois au sein de son écosystème mais aussi dans d’autres environnements tels que AWS, Azure, Google Cloud ou encore Kubernetes.

Analyse & visualisation des données

Le Datalab fournit une interface pour la construction de tableaux de bord, par de simples actions de glisser-déposer. La visualisation des données peut donc se faire sans code. Si vous êtes codeur, vous pouvez bien sûr créer des graphiques personnalisés ou des applications web plus élaborées car Dataiku permet d’intégrer des librairies web comme Javascript, d3.js, Leaflet ou plotly dans son écosystème.

Flux de données & Recalcul intelligent

Le flux de données est le terme utilisé pour décrire toutes les données et les recettes visuelles. Un flux de données peut être visualisé et réexécuté facilement. Dataiku DSS permet également de recalculer intelligemment les données grâce à un moteur de reconstruction qui permet de limiter les calculs aux ensembles de données nécessaires.

Le recalcul intelligent est une première étape dans l’automatisation du flux de données et dans l’orchestration des scénarios d’automatisation des tâches.

L’orchestration globale du flux de données peut être assurée :

  • Soit par Dataiku dans son interface ou en utilisant des API (ici l’API de scénario Dataiku DSS Python).
  • Soit en utilisant un orchestrateur externe, les scénarios de Dataiku étant déclenchés par l’API REST de Dataiku.

Dans les deux cas, le flux de travail est lancé automatiquement après le déclenchement d’un événement (déclencheurs tels que le changement de données, le recalcul demandé toutes les 5 minutes, etc.) Une surveillance très avancée du workflow est possible grâce à la variété des déclencheurs, aux sondes (appelées probes) pour la vérification des métriques et aux alertes utilisateur.

Déploiement et industrialisation des workflows

La plateforme permet de packager le flux de travail en incluant à la fois les données et les modèles (c’est-à-dire tous les workflows).

Il existe deux types d’instances à déployer : le nœud de conception (instance conçue pour le développement) et le nœud d’automatisation (instance d’automatisation du workflow).

Une interface unique regroupe les modèles de déploiement : du développement aux tests et de la pré-production à la production.

La mise en production avec Dataiku DSS est facilitée par la possibilité de gérer les versions des modèles, d’effectuer des rollbacks et de suivre les workflows. Les déploiements sont ainsi automatisés dans le cadre d’une stratégie de production plus globale où tous les scénarios de données peuvent être lancés depuis Dataiku ou en dehors de la plateforme grâce à l’API REST.

Dataiku DSS : Les avantages de la plateforme 

Points forts
FonctionnalitésDescription
Intégration des données+ Connectivité à d’autres écosystèmes et infrastructures cloud+ Détection automatique des schémas et formats de données + Accès rapide aux données
Préparation des données+ Interface graphique simple et rapide d’accès + 80 processeurs visuels pour simplifier les opérations de préparation des données (sans code) + Préparation des données en mode code ou sans code, en fonction de l’expertise technique de l’utilisateur
Mise en production des workflows et des
modèles en production
+ Simple à mettre en œuvre et à contrôler. Possibilité de mettre en place des systèmes d’alerte pour les utilisateurs + Recalcul intelligent du flux de données en fonction de l’âge des données
Environnement collaboratif+ outils de gestion de projet, de chat, de wiki et de gestion des versions
Gouvernance des données+ Un catalogue centralisé des données et des métadonnées + Un audit rapide des données, des journaux et des activités des utilisateurs grâce à un tableau de bord dédié + La sécurité grâce à la gestion des autorisations des utilisateurs et à la surveillance.
Machine learning & IA+ Interface dédiée (Datalab) pour la configuration, le développement et le suivi des modèles de machine learning + Grande variété de plugins d’IA.
Support technique &
Documentation
+ Bonne réactivité du support technique.

Comment découvrir Dataiku ?

Dataiku a mis en place une plateforme d’apprentissage en ligne dédiée à son apprentissage. Elle s’appelle Dataiku Academy et propose un ensemble de formations en ligne. Il existe des programmes Quicks Start qui vous permettent de commencer à utiliser la solution en quelques heures seulement. En fonction de votre activité, il existe des sessions d’apprentissage plus avancées : ce sont les Learning Paths pour acquérir les compétences nécessaires à votre activité.

Chaque programme conduit à une certification Dataiku : Core Designer Certificate, ML Practitioner Certificate, Advanced Designer Certificate, Developer Certificate et MLOps Practitioner Certificate. 

Ces certifications sont gratuites et ouvertes à tous.

Dataiku et le TechRadar de Devoteam

Cet article fait partie d’une série plus importante centrée sur les technologies et les thèmes abordés dans la première édition du Devoteam TechRadar. Pour en savoir plus sur ces sujets, veuillez télécharger le TechRadar.

Envie d’en savoir plus sur Dataiku ?

Consultez notre TechRadar pour savoir ce que nos experts pensent de sa viabilité sur le marché.