Passer

Conseil N°10 pour être un super Data Engineer

2019-12-04-Conseil10-Data-Engineer

Nous arrivons à la fin de cette série de “10 conseils pour être un super data engineer”, nous avons abordés ensemble différentes techniques afin de rendre vos traitements plus performants, efficaces et  scalables. Nous allons conclure avec “Everything as code” qui vous permettra de versionner vos traitements, les partager, les réutiliser et les affiner par le biais de la collaboration.

Conseil N°10 : Everything as code : le code ne ment pas.

Ce dernier conseil est une conviction personnelle. J’ai vu trop de développeurs se perdre avec :

des outils graphiques qui offrent la promesse du moindre effort mais qui au final rendent le déploiement de jobs et de pipelines de données peu maîtrisé.

des fichiers de configurations volumineux et/ou multiples où il est impossible d’avoir une vision d’ensemble du comportement prévu des traitements, tellement les informations sont dispersées. C’est ce qu’on peut appeler communément de la dentelle ou un plat de spaghettis, question de point de vue.

l’impossibilité de réaliser des tests unitaires, l’outil fermant cette possibilité par sa nature “boîte noire” et auto-générant un code source inexploitable.

Ce conseil n’est pas spécifique au développement de traitements de données et s’applique aussi au développement de n’importe quel type d’application. Cette idée facilite l’adhésion à l’approche devops qui a pour objectif d’être le plus efficace possible pour passer les étapes nécessaires du développement à la production (CI : Continuous Integration / CD : Continuous Deployment). Un job est une application comme une autre qui doit être validée par des tests unitaires, packagée et déployée sur un environnement de qualification, puis en production. Quoi de mieux que du code pour automatiser cette chaîne ?

 

Conclusion:

Nous avons la chance de participer au retour de la data au centre de la préoccupation de l’ingénierie informatique avec des défis sans cesse grandissants de volumétries et de performances. La complexité du domaine de la data nécessite forcément la spécialisation d’ingénieur de développement dans ce domaine. Il reposera sur eux de grandes responsabilités en organisant et en produisant de la valeur à partir de l’or noir du numérique qu’est la data.  J’espère que la lecture de ces conseils issus de mon expérience vous aura donné de bonnes directions ou, a minima, interrogé sur vos propres idées.

____________________________________________

Pour relire le conseil N°9 c’est par ici

Pour relire le conseil N°8 c’est par ici

Pour relire le conseil N°7 c’est par ici

Pour relire le conseil N°6 c’est par ici

Pour relire le conseil N°5 c’est par ici

Pour relire le conseil N°4 c’est par ici

Pour relire le conseil N°3 c’est par ici

Pour relire le conseil N°2 c’est par ici

Pour relire le conseil N°1 c’est par ici

 

Pour postuler directement et joindre notre équipe de Data Engineer, c’est par ici.