Passer

Stratégies et bonnes pratiques pour optimiser et vider efficacement un Datalake

Comment vider un Datalake ?

A l’heure où les lacs se vident, et où l’urgence climatique nous engage à repenser nos modes de consommation, nous vidons nos boîtes mail mais nous continuons à remplir les serveurs de données personnelles, professionnelles, temporaires ou permanentes, utiles ou fugaces, chaudes ou froides. Dans le contexte de la dépendance aux matières premières et aux énergies pour ces usages, et face aux enjeux de sobriété numérique, comment bien vider un Datalake, faire le ménage, et réduire ses impacts financiers ?

Les lacs du monde et les Datalakes

Alors qu’ils jouent un rôle primordial dans le stockage du carbone, la moitié des lacs et réservoirs du monde se vident. Sous l’effet conjugué de la hausse des températures, de l’activité humaine et de la baisse des précipitations, 53 % des plus grands lacs de la planète ont connu une baisse significative de leur stock d’eau sur la période allant de 1972 à 2020[1].

Explosion des données numériques

En parallèle, avec la démocratisation des objets connectés, du cloud, etc. le volume de données numériques créées ou répliquées à l’échelle mondiale ne cesse d’augmenter à une vitesse vertigineuse : il a été multiplié par trente entre 2010 et 2020, et croit un taux d’environ + 40 % de croissance annuelle jusqu’à horizon 2025[2].  Les données froides (« données noires » ou encore « dark data ») sont des données oubliées, c’est-à-dire des données inutilisées, inconnues et inexploitées, produites par les interactions quotidiennes des utilisateurs ; elles représentent 52 % des données stockées dans le monde[3].

Les Datalakes et leur impact énergétique

Les lacs de données informatiques (Datalakes) – grâce auxquels une stratégie de gouvernance de données peut se mettre en place dans une entreprise – ne cessent de se remplir et d’accumuler des données. S’ils répondent à la nécessité d’exploiter et de valoriser de manière économique des volumes de données en pleine expansion, les Datalakes sont énergivores. L’ennemi numéro 1 : le stockage important de données inutiles ou obsolètes. Dans les entreprises, le volume des données qu’elles gèrent double tous les 2 ans[4]. En moyenne, entre 60 % et 73 % de toutes les données d’une entreprise ne sont pas utilisées à des fins d’analyse[5]. Les données froides générées par les entreprises représentent 1,3 milliard de giga-octets soit l’équivalent d’1,3 milliard de DVD en haute définition ![6]

L’urgence environnementale et les coûts financiers

A l’heure de la crise environnementale, les engagements Net Zéro ne suffisent plus : il faut trouver et activer dès que possible tous les leviers de réduction de notre empreinte environnementale. Mais dans l’entreprise, comme à titre personnel, si nous savons pourquoi nous devons le faire, nous ne savons pas toujours comment faire, ni par où commencer. Car le « on garde parce qu’on ne sait jamais ! » ne nuit pas uniquement à l’environnement. Il impacte de manière radicalement néfaste le portefeuille des entreprises. Le cabinet d’étude IDC estime par exemple que les « dark data » coûteraient 2 milliards d’euros chaque mois aux entreprises à l’échelle mondiale.

Identifier et quantifier les données dormantes

Comment quantifier le volume de données dormantes par rapport aux données exploitables et exploitées ? Quelles données encombrent inutilement les espaces de stockage, consomment de l’énergie pour rien et augmentent drastiquement le poids des dépenses ?

Une des premières étapes consiste adresser le sujet de la gestion de données dans l’IT :

  • La gouvernance : Qui est responsable de la donnée, qui a le droit d’ajouter ou d’enlever de la donnée, quelle est la répartition des responsabilités, et des droits associés ? Comment puis-je embarquer les utilisateurs sur chaque maillon de la chaîne (enjeux de formation et sensibilisation) ? La part des grandes entreprises mondiales disposant d’un CDO (Chief Data Officer) est passée à 27 % en 2022, contre 21 % l’année précédente. Ce rôle est particulièrement répandu en Europe, où plus de 40 % des grandes entreprises européennes ont nommé un CDO pour gérer les données[7].
  • Les compétences : Ingérer moins de données, c’est optimiser des ressources en prenant en compte le contexte d’utilisation de la donnée. On retrouve les métiers d’architectes Data, Data Engineer, Data scientists, Data Platform engineers, comme personnes clés à intégrer dans ces démarches. Auxquels il est fortement recommandé d’ajouter une partie sensibilisation de l’ensemble des parties prenantes, pour une bonne compréhension des enjeux.
  • La culture d’entreprise : Comment la qualification des besoins entre métiers et IT est-elle effectuée ? Comment les projets sont-ils gérés ? Y a-t-il une culture de l’économie, de la sobriété ? Comment les engagements de l’entreprise arrivent-ils jusqu’aux opérationnels ? Est-ce que la maîtrise des coûts environnementaux est un levier suffisant pour faire le ménage ? Ou bien, est-il préférable d’avoir une approche purement financière, quitte à compter les gains environnementaux comme un “bonus” ?
  • Les modes de stockage : Ils doivent prendre en compte à la fois les cas d’usages métiers (mise à jour, accès, …) mais également réglementaires (RGPD) et financiers (limite des coûts). Les données froides peuvent être un levier de diminution des impacts et des coûts, pour un accès plus long à la donnée par les métiers. La suppression n’est pas ancrée dans nos habitudes, nous avons une sorte de réflexe de collectionneurs, comme des enfants avec un sac de billes ! La différence de coût entre données chaudes et données froides peut varier de manière significative entre les fournisseurs de stockage (de 1 à 20 entre données chaudes et données d’archivage).
  • Les technologies : inégales face à l’efficacité, mais également “pousse à la consommation” : on démarre des projets, on fait des migrations, mais sait-on décommissionner ? Quel est l’impact d’une plateforme data ? Quelles sont les caractéristiques techniques qui permettent de l’optimiser ?
  • L’amélioration continue, sous forme de monitoring : on peut suivre l’évolution en valeur absolue du stockage, mais également sa croissance : on se pose alors la question du découplage, ou de la corrélation entre croissance du stockage de données et croissance de la valeur ajoutée pour l’entreprise. Ou encore, celle du rapport entre les données que je stocke et celles que j’utilise…
  • La dette technique, comme une contrainte forte : Les coûts de la dette technique représenteraient entre 10 et 20 % des dépenses des nouveaux projets[8]. Les données s’accumulent avec le temps, et faire le ménage, c’est finalement s’occuper du « legacy ». Il est tout à fait possible d’intégrer cette contrainte dans la gestion quotidienne d’un datalake.
  • Les coûts : Pour la plupart des entreprises, ces données froides étaient négligées – leur coût de conservation semblait « raisonnable ». Mais avec la flambée des prix de l’électricité, le coût du stockage flambe et ce paramètre ne peut plus être sous-estimé ni ignoré. La balance intègre désormais les coûts financiers, les coûts environnementaux et le coût du travail qui lui aussi ne cesse d’augmenter

Ensuite, une fois qu’on a identifié l’ensemble de ces paramètres qui devraient être pris en compte pour gérer de manière responsable les données, il faut y ajouter une vision de ce que doit être l’évolution de cette gestion de la donnée :

Décroissance en valeur absolue : La croissance des impacts du numérique (les émissions de GES du numérique en France pourraient tripler d’ici 2050, source Arcep 2023) ne peut pas et ne doit pas être “infinie”, un des défis de demain sera de fournir des services numériques dont l’impact environnemental croît moins vite que les usages proposés. Cela peut passer par des évolutions technologiques, certes, mais cela passera également par une sélection des cas d’usages, en fonction de leurs potentiels d’impacts environnementaux, sociaux ou sociétaux !

Modèle stable de fonctionnement : Il est indispensable de définir des process à l’entrée du datalake, de la qualification des données à l’ingestion sous le bon format d’exploitation (tri entre les données froides qui doivent le rester, les données froides exploitables et les données froides à supprimer définitivement), de fournir un cadre aux fournisseurs et aux consommateurs, ou encore de mettre en place une veille des technologies de stockage.

Phases de la vie de la donnée :

  • Ingestion : une fois que la donnée est là, elle reste ; le mode d’ingestion est donc un levier pour limiter la croissance ;
  • Traitement de la donnée : on peut mettre en place du nettoyage des tables temporaires, définir une durée de vie pour chaque donnée après laquelle elle est automatiquement supprimée, …
  • Exposition de la donnée (aussi appelée datamesh) : permet d’exposer à d’autres équipes la donnée et d’en tirer le plein potentiel grâce à un stockage optimisé dans un seul endroit ;
  • Nettoyage de la donnée: comment implémenter des processus de nettoyage automatique, avec les systèmes de monitoring et d’alerte adaptés pour ce suivi ? 

Le rôle croissant des CIO dans la gestion environnementale des entreprises

Les CIO ont un rôle de plus en plus fort à jouer dans l’atteinte des objectifs environnementaux des entreprises, à double titre : répondre aux enjeux d’industrialisation des démarches RSE, tout en limitant l’impact environnemental de leurs propres actifs. Heureusement, de nombreux principes et bonnes pratiques existent dans la tech, pour aider les CIO à réduire leurs impacts, et les CSO à s’outiller !

[1] Selon la dernière étude publiée dans le magazine Science
[2] Statista
[3] Selon une étude de « Le GreenIT »
[4] Etude menée par l’institut Enterprise Strategy Group (ESG) pour MEGA International sur « Le rôle stratégique de la data gouvernance et son évolution », octobre 2022
[5] Forrester, 2016
[6] Selon une étude de « Le GreenIT »
[7] Statista, Mars 2023 + Statista, Février 2023
[8] Source McKinsey, Juillet 2020