Traduit depuis l’article : https://www.matillion.com/resources/blog/evolving-cloud-data-platform-opportunities-in-2021-the-lakehouse // Date de publication originale : 9 décembre 2020
La gestion des données cloud est à la hausse et les entreprises en prennent note. L’introduction en bourse de Snowflake à l’automne, ainsi que l’ accélération de la compréhension des données en raison de la pandémie, ont augmenté la vitesse à laquelle les entreprises mettent en œuvre des stratégies de données cloud.
Dans une enquête récente menée auprès de 200 professionnels des données d’entreprise, nous avons constaté qu’il y avait un fort intérêt pour une architecture de données cloud diversifiée.
- Plus d’un tiers (38%) utilisent déjà des entrepôts de données dans le cloud (CDW). À long terme, 43% s’attendaient à avoir toutes leurs données dans le cloud, le reste prévoyant de poursuivre des modèles hybrides qui exploitent à la fois les entrepôts de données cloud et sur site
- Alors que l’utilisation des CDW est déjà répandue, seuls 16% utilisent actuellement des lacs de données . Plus de la moitié (56%) prévoient d’utiliser des lacs de données à l’avenir, et 26% envisagent de le faire
- 57% tireront parti d’une stratégie de cloud hybride (sur site et cloud) pour la gestion des données, tandis que 22% envisagent de le faire. -cloud, et 21% utiliseront un seul fournisseur de cloud pour gérer toutes leurs données cloud.
Il existe quelques tendances émergentes pour l’infrastructure de données cloud qui aideront à façonner l’environnement au sein des entreprises pour 2021 et au-delà. Le plus répandu d’entre eux est l’arrivée de nouvelles plates-formes qui combinent deux solutions de stockage de données pour un meilleur accès aux données et un temps plus rapide pour obtenir des informations.
Brouiller la frontière entre les lacs de données et les entrepôts de données
Une tendance émergente pour 2021 est le mélange de lacs de données et d’entrepôts de données. Databricks a lancé son produit Delta Lake, un entrepôt de données complet construit sur une pile de données volumineuses. Microsoft Azure a publié Azure Synapse, qui a réuni toutes ses technologies de Big Data et d’entreposage de données sous une seule marque. Ce marché a évolué vers le Lakehouse, une architecture qui est le meilleur du monde à la fois structuré et semi-structuré.
Dans un entrepôt de données, les formats de stockage sont spécifiques à l’entrepôt de données et dans certains entrepôts de données, ils sont liés à la puissance de calcul. Ainsi, le client a le choix de l’emplacement de stockage des données, en fonction du cas d’utilisation. Entre autres choses, le Lakehouse s’attaque à ce problème. Dans cette architecture, toutes les données sont accessibles à tous dans l’organisation, pour créer de nouvelles transformations de données et de nouvelles visualisations, alimenter la BI et l’IA, et aussi pour que les utilisateurs avancés effectuent un apprentissage automatique en profondeur sur des données préparées. Quiconque a fait du deep machine learning sait que l’essentiel du travail consiste à préparer des données simples. Le Lakehouse rend ce processus beaucoup plus efficace. Les paradigmes architecturaux ont changé et simplifié au fil du temps. Désormais, leur maintenance nécessite moins d’effort et donc moins coûteuse à mettre en œuvre. Le temps de valorisation est beaucoup plus rapide avec cette nouvelle approche.
Databricks propose un produit de premier ordre qui intègre la technologie Lakehouse. Matillion ETL pour Delta Lake on Databricks, un produit de transformation de données cloud spécialement conçu pour le lac avec SQL Analytics est disponible pour orchestrer les flux de données et les transformations. Azure Synapse fusionne l’entreposage de données dans le cloud et l’analyse du Big Data en une seule plate-forme de service. Cela signifie que si vous essayez d’évaluer si vous avez besoin d’un entrepôt de données cloud, d’un lac de données ou des deux, Azure Synapse Analytics peut combler ces deux besoins à votre place. Ensemble, Azure Synapse Analytics et Matillion ETL fournissent l’ingestion, la transformation et la préparation des données à utiliser avec PowerBI et Azure Machine Learning pour des analyses avancées.
N’oubliez pas de vous concentrer sur les technologies de support
Afin de tirer parti du concept de lakehouse, il est important de s’assurer que les solutions de données cloud de support, y compris ETL / ELT, le catalogage de données, les outils de gouvernance des données sont soigneusement sélectionnées.
Pour maximiser vos investissements dans le cloud, gardez ces conseils à l’esprit:
- Séparez le calcul du stockage pour une productivité maximale – les plates-formes et les systèmes couplant le stockage peuvent être difficiles à gérer, alors assurez-vous d’envisager des alternatives.
- Louez dans le cloud, n’achetez pas de matériel – Le cloud compute transfère le pouvoir vers des équipes de données allégées et une évolutivité cloud sur toutes les plates-formes qui peuvent répondre rapidement à la demande d’analyse.
- Choisissez des plates-formes d’orchestration ETL neutres pour éviter le verrouillage technologique.
- Appliquez de solides pratiques de transformation pour obtenir les meilleurs résultats sur n’importe quel modèle d’architecture.