Passer

Conseil N°1 pour être un super Data Engineer

2019-12-04-Conseil1-Data-Engineer-1

Démarrons par un sujet de conception devenu fondamental à l’ère de la RGPD, avant de se lancer plus en avant dans la technique.

Conseil N°1 : Penser au cycle de vie d’une donnée dès la phase de conception.

Une erreur souvent commise est de remettre à plus tard la réflexion autour de la question de la fin de vie d’une donnée. À quel moment une donnée doit-elle être supprimée ?

Le traitement associé à la suppression de données n’est pas un sujet sur lequel on met généralement l’effort au début d’un projet, on se focalise plus rapidement sur les enjeux business plutôt que de penser à quand et surtout comment la donnée sera effacée et/ou archivée.

Pourtant, depuis la mise en place de la réglementation européenne de protection des données personnelles (RGPD), ce sujet n’est pas à prendre à la légère. Le responsable d’un traitement associé à des données personnelles doit s’assurer du respect de cette réglementation notamment en termes de durée de conservation et de droit à l’oubli. L’entreprise s’expose à des sanctions lourdes (jusqu’à 4% du chiffre d’affaires) en cas de non-respect avéré.

D’autre part, la durée de conservation d’une donnée peut impacter la manière dont les données doivent être modélisées. Une mauvaise modélisation peut conduire à la mise en place de traitements très lourds, voire impossibles à réaliser en l’état, si le cas de la suppression n’a pas été prévu. Il convient donc que les règles de gestion de suppression soient définies et les index et/ou les dates permettant de rechercher les données à supprimer soient correctement implémentés. Enfin, il est bon à savoir que certaines bases de données (Google BigQuery, Cassandra…) proposent des mécanismes de suppression automatique des données basés sur des durées de vie (lifecycle) faciles à mettre en oeuvre lors de l’implémentation initiale d’une table, mais beaucoup plus difficilement une fois en production.

Conclusion:

Nous espérons que ce premier conseil éveille de l’intérêt chez vous, il est tout aussi fonctionnel que technique. Nous aurons l’occasion de plus parler de technologie très prochainement.

Le prochain conseil sera dédié aux modélisations de base de données distribuées qui ne suivent plus les modèles classiques (forme normale) que vous avez peut-être appris à l’école ou au début de votre carrière.