Introduction à Microsoft Fabric

Qu’est-ce que Microsoft Fabric ?

Une extension de Power BI ? Une intégration d’Azure Synapse Analytics dans Power BI ? Une base de données ? Un Lakehouse ?

S’il fallait définir Fabric en une phrase, elle pourrait être la suivante :

« Microsoft Fabric est une plateforme de données de bout en bout, entièrement managée qui permet de rassembler toutes les compétences de traitement des données de l’entreprise autour d’une expérience unifiée et augmentée par l’IA. »

L’idée de Fabric est née de la volonté de redéfinir notre façon de travailler avec les données, en permettant aux analystes, ingénieurs data, développeurs, data scientists, data architects et bien d’autres, de se connecter de n’importe où et de travailler sur les mêmes données, peu importe les outils qu’ils utilisent.

De bout en bout signifie que Fabric va permettre de gérer tout le cycle de la donnée et de transformer une donnée initiale en une information claire et fiable qui elle-même permettra une prise de décision fiable et éclairée.

1. Un changement de paradigme dans les équipes data

On constate également qu’il y a quelques années, les outils très silotés étaient utilisés et pilotés par des équipes elles-mêmes très silotées. Et avec l’avènement des nouveaux paradigmes d’organisation des équipes en charge des données, tels que le Data Mesh par exemple, on voit les entreprises commencer à recentraliser leurs compétences data autour d’un environnement commun à tous ces profils qui seront amenés à gérer les fameux data products.

Il est important de considérer ces étapes du passé pour bien comprendre d’où vient cette nouvelle vision d’une plateforme de données moderne, pourquoi Microsoft a fait certains choix et pourquoi nous considérons que cette nouvelle approche va révolutionner la façon dont nous allons capitaliser sur nos données dans les années à venir.

Mais revenons quelques instants sur les raisons qui ont fait que les déploiements des data platforms ces dernières années ont été si complexes.

Dans le cadre de leurs réflexions pour le développement de Fabric, les équipes Microsoft ont recensé plusieurs difficultés rencontrées par leurs clients et partenaires dans le déploiement d’infrastructures de gestion de données.

Tout d’abord en raison de la donnée en elle-même qui, au fil des années, s’est complexifiée :

Les données sont plus volumineuses : avec une croissance forte de la quantité de données générées chaque jour.
Les données sont de plus en plus variées : avec une augmentation de la diversité des types de données et des sources de données.
Les données sont de plus en plus véloces : elles sont générées plus régulièrement et doivent être traitées de plus en plus rapidement.
Et enfin, les données deviennent de moins en moins qualitatives : elles ne sont pas toujours fiables et nécessitent d’être vérifiées et certifiées.

Ces facteurs peuvent rendre la gestion des données difficile car ils nécessitent des solutions capables de traiter de grandes quantités de données diverses, rapidement et de manière fiable (https://go.fabricbook.fr/ch1-1).

De ce fait, un autre constat, qui est bien connu dans l’écosystème des spécialistes de la donnée, est que l’intégration de données reste une étape complexe et fastidieuse dans tout projet de donnée.

De plus, au-delà de l’intégration, ces solutions nécessitaient la création d’architectures qui pouvaient rapidement devenir complexes en intégrant des briques spécialisées de stockage, de traitement et de restitution de données qu’il fallait parfois, si l’on choisissait différents éditeurs, intégrer avec toute la complexité des différents formats de données supportés par chacun, de la gestion de la sécurité différente d’une technologie à l’autre, etc.

Enfin, on peut constater une tendance qui ne risque pas d’évoluer de sitôt : il y aura toujours plus d’utilisateurs métier et de citizen analysts, citizen data developers qu’il n’y aura de personnes techniques disponibles dans les équipes informatiques. Plus nous rendons possible la collaboration entre les profils citizen et les équipes techniques, plus nous favorisons la progression des entreprises au rythme requis, tout en permettant aux développeurs de se focaliser sur des tâches...

L’architecture de Fabric

1. Une solution Software as a Service - SaaS

Les solutions cloud peuvent être mises à disposition des clients à travers trois niveaux de service qui diffèrent par leur degré de gestion et de contrôle :

Le IaaS, ou Infrastructure as a Service, fournit une infrastructure informatique virtuelle, incluant des serveurs, du stockage et des services réseau, permettant aux entreprises de louer ces ressources au lieu de les acheter et de les gérer elles-mêmes.
Le PaaS, ou Platform as a Service, quant à lui, offre une plateforme complète avec des outils de développement, des bases de données et des services middleware, facilitant ainsi le développement, le test et le déploiement d’applications sans se soucier de la gestion de l’infrastructure sous-jacente.
Le SaaS, ou Software as a Service, propose des applications complètes ne nécessitant aucune plateforme ni infrastructure.

Microsoft a choisi de proposer Fabric en tant que solution SaaS (Software as a Service) car ce mode présente de nombreux avantages :

Des coûts réduits : avec une application en mode SaaS, il n’est plus nécessaire d’installer et de gérer le backend de l’application, ce qui permet d’éliminer les efforts et donc les coûts d’installation et de support d’une infrastructure applicative.
Une application 100 % managée : toutes les actions de maintenance, d’exploitation et d’hébergement de l’application sont gérées. Il n’est pas nécessaire de se préoccuper des mises à jour ou des correctifs. Fabric évolue au fil des mois avec des mises à jour fonctionnelles tout en s’assurant d’une rétrocompatibilité avec le déploiement en cours. De plus, les sauvegardes de données sont automatisées, ce qui élimine le besoin de gérer manuellement les processus de backup. De même, le mode SaaS offre une mise à l’échelle qui permet une évolutivité facile et rapide, car les ressources peuvent être ajustées en fonction des besoins sans nécessiter d’investissements supplémentaires en matériel.
Une facilité d’accès : le mode SaaS offre un accès via une simple connexion internet au portail de Fabric et permet ensuite de profiter des différents moteurs de traitement de données en mode serverless. Il n’est donc plus nécessaire de provisionner un Datawarehouse pour effectuer des requêtes en T-SQL sur ses données ou bien de provisionner un cluster Spark pour développer ses premiers Notebooks. L’objectif est de permettre à l’utilisateur de se concentrer uniquement sur la valeur ajoutée de sa tâche de traitement de données sans qu’il ait à se soucier de l’infrastructure d’exécution sous-jacente.

2. Architecture de Fabric

L’architecture de Fabric repose sur deux environnements technologiques liés mais indépendants :

le socle de stockage : OneLake ;
les expériences de traitement de données.

OneLake représente la couche de stockage de Fabric qui permet de gérer et d’organiser des données au travers d’une interface unifiée, peu importe leur volumétrie, leur format d’origine et provenant de sources internes ou externes à l’entreprise. L’idée est de fournir un point d’entrée unique pour accéder aux données dont les utilisateurs vont avoir besoin sans qu’ils aient à se soucier de l’endroit où est stockée physiquement la donnée à laquelle ils accèdent. OneLake repose sur la technologie Azure Data Lake Storage Gen2 déjà éprouvée par de nombreux utilisateurs d’Azure, tout en y ajoutant une véritable évolution technologique. En effet, une fois la donnée stockée dans son format initial, OneLake offre la faculté de convertir ces données dans un format unifié nommé le Delta Parquet, un format ouvert qui permet de garantir la cohérence et la fiabilité des données au sein du Data Lake. Ce format de table unifié va permettre un accès transparent aux données sur tous les moteurs de calcul reposant sur OneLake, qu’il s’agisse des expériences internes de Fabric, ou bien de toute autre solution capable de traiter des données au format Delta. OneLake assure également la sécurité, la conformité et la gouvernance des données, en respectant les normes et les réglementations en vigueur.

Afin d’ouvrir OneLake aux données externes, Fabric introduit deux fonctionnalités clés, à savoir les raccourcis et la mise en miroir :

Les raccourcis (shortcuts) représentent des objets dans OneLake qui pointent vers d’autres emplacements de stockage externes à l’espace de travail...

Les scénarios d’utilisation de Microsoft Fabric

Les scénarios d’utilisation de Fabric sont très nombreux et variés en fonction des entreprises et des entités au sein de l’entreprise qui en bénéficient.

On peut citer quelques exemples pour lesquels les entreprises déploient Fabric :

Compléter une plateforme de données déjà en place, permettant à des utilisateurs métier de profiter d’interfaces plus accessibles pour préparer ou analyser des données.
Réunifier des collaborateurs métier avec les équipes IT afin de permettre à ces profils de collaborer sur les mêmes données au travers d’outils qui leur sont adaptés.
Réconcilier des données IoT pré-agrégées en local avec d’autres sources de données de l’entreprise pour créer des postes de pilotage permettant de passer d’une vision fragmentée à une perspective intégrée et holistique, facilitant ainsi une vue de bout en bout d’un processus industriel.
Implémenter une architecture de type Data Mesh en réorganisant les équipes autour de la définition de responsabilités partagées entre les équipes métier et l’IT.
Profiter des capacités de modèles de Deep Learning et de LLM intégrées pour enrichir les données directement au sein de Fabric.

Dans le cadre de la mise en place de ce type de scénarios, de nombreux profils d’utilisateurs vont être à même de bénéficier des capacités de Fabric.

1. Quels sont les métiers/rôles qui utilisent Fabric ?

L’une des volontés fortes lors du design de la solution Fabric fut de créer des interfaces et expériences qui s’adressent à différents métiers et rôles au sein des organisations. L’objectif était de permettre à ces profils qui utilisent des outils différents de collaborer de façon intuitive sur les mêmes jeux de données.

Voici quelques exemples de profils utilisateurs qui vont pouvoir profiter des différentes interfaces de Fabric :

Les utilisateurs métier : ce sont les principaux consommateurs et producteurs de données. Ils ont besoin de se reposer sur des données analysées et bien présentées afin de prendre des décisions éclairées, de résoudre des problèmes, d’améliorer des performances ou de créer de la valeur. Certains vont utiliser Fabric pour visualiser et partager des données analysées en utilisant principalement Power BI, quand d’autres vont profiter des interfaces graphiques pour créer des vues sur des tables pour ensuite partager le code SQL ou Python généré en sous-jacent aux équipes techniques. Ces utilisateurs vont aussi profiter des intégrations natives de Fabric avec des outils de collaboration en intégrant par exemple des visualisations de données interactives directement dans leurs présentations PowerPoint, ou encore en permettant aux équipes de partager et de discuter des KPI et des données directement au sein de leurs équipes Teams.
Les analystes de données : comme leur nom l’indique, ce sont les experts de l’analyse des données qui vont manipuler, traiter, requêter et modéliser les données. Ils vont pouvoir utiliser Fabric pour préparer, enrichir, nettoyer et transformer les données, afin de les rendre exploitables et fiables pour leurs propres analyses ou bien pour les utilisateurs métier. Ils vont pouvoir utiliser les interfaces simples des Dataflows Gen2 pour nettoyer les données et les outils Synapse Data Engineering et Synapse Data Warehousing pour faire leurs analyses en utilisant le langage SQL ou le framework Spark. Ils peuvent également utiliser Power BI pour visualiser et partager les résultats de leurs analyses.
Les ingénieurs data : le rôle des ingénieurs data est très variable d’une société à l’autre, mais de manière générale, ces profils ont la responsabilité du maintien en condition opérationnelle de la plateforme de données afin de mettre à disposition un ensemble de données fiables et de bonne qualité aux utilisateurs. Ils vont eux aussi bénéficier des fonctionnalités de préparation de la donnée, comme les analystes, et vont également pouvoir profiter des fonctions d’intégration et de traitement de données en temps réel que propose Fabric.
Les data scientists : ils vont pouvoir utiliser Fabric pour explorer, expérimenter, entraîner, tester et valider des modèles d’IA et de ML, en utilisant les frameworks et les langages de leur choix, tels que Python, R, TensorFlow ou PyTorch. Ils utilisent principalement l’expérience Data Science qui leur offre...