Unifier des données dans OneLake
Introduction
Avec l’avènement des Data Lakes ces dernières années, de nombreuses entreprises ont commencé à se poser des questions sur comment bien organiser les données au sein de ces nouveaux environnements.
L’organisation d’un Data Lake soulève des questions autour de la façon dont les données qui y seront stockées vont être organisées, sécurisées, accessibles, mises à jour, exploitées, partagées et monitorées.
Au-delà de l’organisation physique des données, le sujet de la gouvernance autour de ces données arrive très vite dans ces réflexions.
En effet, ces deux notions sont intimement liées, et la mise en place d’un Data Lake peut amener à une re-répartition, parfois même une réorganisation complète des rôles et responsabilités autour de ces données.
C’est ainsi l’occasion de réfléchir à de nouvelles organisations permettant de décentraliser les plateformes de données monolithiques actuelles qui peuvent présenter des freins à l’exploitation des données tout en mettant en place une gouvernance robuste en termes de responsabilités et de conformité, garantissant ainsi une gestion efficace et sécurisée des données tout...
Organisation et gouvernance autour de OneLake
1. OneLake, le OneDrive des données
Si l’on refait un rapide historique sur l’évolution des méthodes de partage de fichiers en entreprise, on peut rappeler qu’il y a quelques années, celui-ci reposait sur une infrastructure lourde de serveurs, de dossiers et de contrôles d’accès qu’il fallait gérer et maintenir. Ces architectures de partage de fichiers ont été remplacées dans de nombreuses sociétés par le service OneDrive proposant un service SaaS clé en main pour partager et collaborer sur des fichiers.
Cette transition vers OneDrive souligne l’importance d’une gouvernance adaptée aux nouvelles méthodes de travail collaboratif et de partage de données.
L’idée de OneLake est donc basée sur ce même concept : plutôt que de souscrire à une technologie de Data Lake qu’il faut maintenir, pourquoi ne pas tout simplement souscrire à un service de stockage qui offre une couche d’abstraction aux complexités de ces infrastructures de stockage de données ?
De ce fait, le Data Lake devient donc un environnement maîtrisé ou gouverné, mais néanmoins accessible aux utilisateurs qui pourront y voir une façon simple et intuitive de partager des données de façon sécurisée avec leurs collègues et leurs équipes IT.
Lors de la réception d’un nouveau devis fournisseur, pourquoi passer par un processus long d’intégration de ce fichier dans la plateforme data de l’entreprise par l’IT lorsque l’on peut le transmettre par mail au data analyste de la finance qui l’intégrera dans le rapport Power BI d’analyse des devis ?
OneLake vise à changer ces habitudes en fournissant la capacité d’enregistrer et si besoin de modifier ces données directement depuis son poste de travail dans le Data Lake gouverné de l’entreprise de façon instantanée.
Mais encore faut-il savoir où déposer ce fichier dans OneLake.
La construction d’un Data Lake comporte ses propres défis qui nécessitent beaucoup de réflexions et de coordination. Voyons comment mettre en place ces nouveaux environnements de...
Implémenter une approche Data Mesh au travers de Microsoft Fabric
1. Le Data Mesh
L’idée n’est pas ici de présenter une définition exhaustive du Data Mesh, mais juste de rappeler certains concepts que l’on retrouvera dans la mise en place d’une gouvernance fédérée au sein de Fabric.
Il est intéressant de prendre un peu de recul pour visualiser l’évolution de l’architecture des plateformes de données au cours des cinquante dernières années.
Au fil des décennies, le domaine de la gestion des données a connu des transformations majeures, chacune répondant aux défis et opportunités technologiques de son époque :
-
Années 90 : la centralisation totale avec le « Datawarehouse d’entreprise ». Toutes les données s’y trouvent organisées de façon unique (Single Version of the Truth). Cette approche a été abandonnée car elle nécessitait une gouvernance holistique et rigide trop complexe à mettre en œuvre dans les entreprises.
-
Années 2010 : la flexibilité des lacs de données permet de stocker absolument tout ce qu’on qualifie de donnée (des tables aux images en passant par les logs) sur une plateforme universelle, accessible par des moteurs d’analyses sans limite. Cette approche manque intrinsèquement de gouvernance des données. Le concept de Lakehouse apparu récemment complète un peu plus efficacement les lacs de données mais la gouvernance reste compliquée.
-
Fin des années 2010 : les plateformes de données Cloud intégrées prennent de l’importance sur le marché en offrant la simplicité de mise en œuvre et surtout l’élasticité, le passage à l’échelle et le paiement à l’utilisation propre au Cloud. Ces plateformes rendent la gouvernance des données plus facile mais ces plateformes restent techniques avant tout.
Chaque étape de cette chronologie représente un bond en avant dans la manière dont les entreprises approchent la collecte, le stockage, le traitement et l’analyse des données, mais de manière générale, dans une approche...
Structuration de la donnée au sein de OneLake
1. La Data virtualisation au travers des raccourcis (Shortcuts)
Dans un monde idéal, regrouper physiquement les données en un seul endroit permettrait de briser les silos et faciliterait la modélisation et l’analyse des données. Cela simplifierait également la gestion, la gouvernance et la découverte des données, ce qui permettrait à tous les utilisateurs et les applications d’accéder plus facilement aux données dont ils ont besoin.
Mais il est rarement possible pour une organisation de rassembler en un seul endroit l’ensemble de ses données d’entreprise.
Les organisations doivent donc naviguer entre la nécessité de rassembler les données pour une gouvernance efficace et la réalité des données réparties dans différents systèmes et emplacements.
Pourtant, l’approche de OneLake vise à unifier les données de l’entreprise en un seul lieu, brisant ainsi les silos qui entravent souvent la modélisation et l’analyse des données. Cette centralisation qui justement simplifie la gestion et la gouvernance des données permet une découverte et un accès facilités pour les utilisateurs et les applications. Nous allons voir comment OneLake va nous permettre de concilier les bénéfices d’un environnement de données centralisé avec la réalité du terrain.
2. Le fonctionnement des raccourcis
Comme nous l’avons vu précédemment (cf. chapitre Du Lakehouse à la première analyse - sous-section Unifier les données), un raccourci est une référence depuis OneLake sur des données stockées dans d’autres emplacements de fichiers externes à OneLake. Ces emplacements de fichiers peuvent être :
-
un autre emplacement dans OneLake, par exemple la zone Files ou Tables d’un Lakehouse dans un autre Workspace, ou une base de données KQL dans un autre Workspace ;
-
un Azure Data Lake Storage (ADLS) Gen2 ;
-
un compte de stockage Amazon S3 ou bien les systèmes de fichiers et services compatibles Amazon S3 ;
-
un compte de stockage Google Cloud Storage ;
-
un stockage Microsoft Dataverse.
La virtualisation des données...
Gouvernance et sécurité des fichiers dans Fabric
Si l’organisation même des fichiers au sein de OneLake est un sujet important, il est primordial de s’assurer d’une bonne gouvernance de ces données et notamment de faire en sorte d’appliquer une gestion des droits à la fois permissive pour ne pas bloquer les utilisateurs, mais assez restrictive pour s’assurer que chacun ait les bons droits en fonction de ses besoins.
Fabric fournit un ensemble de fonctionnalités qui permettent de gérer, protéger, surveiller et améliorer la découvrabilité des données au sein de OneLake, et notamment les informations sensibles de l’entreprise, permettant entre autres de répondre aux exigences et réglementations en matière de conformité des données.
1. Accéder aux données de OneLake
En fonction de leur profil, les utilisateurs n’accéderont pas de la même façon aux données dans OneLake. Comme nous le verrons plus en détail par la suite (cf. chapitre Ingérer des données dans Fabric - sous-section Les méthodes d’ingestion de données dans Fabric), un utilisateur qui va intégrer des données dans OneLake pourra le faire via différentes interfaces :
-
uploader un fichier directement via l’interface graphique du Lakehouse ;
-
utiliser l’application OneLake Explorer sur son poste de travail pour glisser-déposer un fichier ;
-
utiliser l’application Azure Storage Explorer sur son poste de travail pour charger des fichiers ;
-
utiliser les fonctionnalités de l’expérience Data Factory pour ingérer directement les données dans le Lakehouse.
Pour accéder aux fichiers qui sont stockés au sein de OneLake, on va pouvoir utiliser les API et SDK Azure Data Lake Storage (ADLS) Gen2.
Il sera possible de faire référence à n’importe quel élément de OneLake via deux types de chemin d’accès :
-
l’URL qui permet de référencer un item du tenant Fabric en indiquant l’espace de travail, le type d’item et le chemin, au format :
https://onelake.dfs.fabric.microsoft.com/<workspaceGUID>/<itemGUID>/
<path>/<fileName>
-
le chemin ABFS - Azure Blob...