Conseil N°7 pour être un super Data Engineer

Les bonnes pratiques peuvent parfois nous échapper. Pensez à séparer la logique d’orchestration de la logique de traitement et gardez vos données en parfaite harmonie. Nous allons continuer avec un axe majeur pour une architecture data réussie et durable : la scalabilité.

Conseil N°7 : Utiliser des solutions scalables pour le traitement et le stockage de données

En 2019, le déploiement d’une architecture monolithique peut être considérée comme une dette technique. Certains me contrediront en affirmant qu’il n’est pas toujours possible de mettre en place des architectures big data en début de projet. On doit souvent commencer avec peu de moyens, le temps de faire un proof of concept, avant d’obtenir le budget nécessaire pour passer à l’échelle. C’est vrai.

Une architecture scalable n’est pas forcément une architecture dite “Big Data”. Par scalabilité, j’entends d’être en capacité de pouvoir ajouter davantage de ressources de calcul quand celles-ci sont en train d’atteindre leurs limites. Pas besoin d’un cluster Hadoop pour déclencher des traitements répartis sur plusieurs machines. Par exemple, une architecture de type Airflow / Celery organise l’exécution des traitements sur une ou plusieurs machines de façon robuste.

Les bases de données classiques offrent, pour la plupart, un mode clusterisé, mais avant d’arriver à ce type de solution, ces bases peuvent déjà adresser plusieurs centaines de gigaoctets de données. Il est également possible de mettre en place une architecture en sharding (répartition des données sur plusieurs serveurs en fonction d’une clé).

Enfin, de nombreuses solutions cloud offrent des solutions nativement scalables pour traiter et exposer de la donnée : Amazon Redshift, Google BigQuery, Azure Cosmos DB, MongoDB Atlas, etc. Elles ont pour avantage de vous affranchir, en majeure partie, des tâches d’exploitation et d’administration. Attention, elles n’ont cependant pas toutes le même rôle à jouer dans une architecture data.

Conclusion:

Les solutions de stockage sont de plus en plus variées et répondent à un grand nombre de scénarios: bases de données relationnelles, bases de données de documents, entrepôt de données, memory store, services managés, etc. Que votre projet soit en phase de conception ou en pleine production, le choix des bonnes technologies de stockage et de traitement de données reste crucial pour votre sérénité et celle de votre équipe. Avez-vous toujours des points d’interrogations ? Nos ingénieurs et architectes data mettront toutes leurs expertises entre vos mains..

____________________________________________

Pour relire le conseil N°6 c’est par ici

Pour relire le conseil N°5 c’est par ici

Pour relire le conseil N°4 c’est par ici

Pour relire le conseil N°3 c’est par ici

Pour relire le conseil N°2 c’est par ici

Pour relire le conseil N°1 c’est par ici

Pour postuler directement et joindre notre équipe de Data Engineer, c’est par ici.