Passer

Conseil N°4 pour être un super Data Engineer

2019-12-04-Conseil4-Data-Engineer

L’idempotence n’a plus secret pour vous, alors on continue ? Ce conseil peut-être vu comme un complément au conseil précédent. C’est une recommandation assez technique mais souvent oubliée lorsqu’on implémente “sur-son-environnement-et-que-tout-fonctionne”.

Conseil N°4 : Un job est responsable de son environnement de travail

Certains jobs vont créer des espaces de travail pour stocker les résultats intermédiaires d’un traitement. 

Ce sont généralement des fichiers ou des tables temporaires.

Une très bonne gestion de ces données temporaire s’impose pour éviter des écueils classiques :

  • le full disk,
  • les fichiers temporaires des précédents jobs qui s’accumulent avec le temps jusqu’à ce qu’il ne reste plus de place disponible.
  • le “file already exists” quand un traitement est relancé après un incident,
  • la perte d’intégrité de données par l’utilisation d’une table temporaire avec le résidu d’un traitement  précédent.

Pour éviter ce type de problème fréquent, vous devez donc penser à prévoir a minima en fin de traitement et de manière idéale en début, à vous assurer que l’espace de travail de votre job est propre, peut-être logger des warnings en cas d’espace disque réduit, dans tous les cas nommer vos ressources temporaires de telle sorte qu’elles ne soient pas mises en concurrences avec d’autres jobs, et facilement nettoyables par votre propre job.

 

Conclusion: Conseil basique nous direz-vous peut-être ? Oui certes, mais qui n’a jamais laisser son propre bureau (espace de travail, qu’il soit physique ou virtuel) se remplir un peu plus tous les jours avant de démarrer sa journée de travail ? 🙂

A très vite pour le conseil n°5 qui abordera le dimensionnement des jobs, sujet passionnant.

____________________________________________

Pour relire le conseil N°3 c’est par ici

Pour relire le conseil N°2 c’est par ici

Pour relire le conseil N°1 c’est par ici

 

Pour postuler directement et joindre notre équipe de Data Engineer, c’est par ici.