Blog ENI : Toute la veille numérique !
🎃 Jusqu'à -30% sur les livres en ligne, vidéos et e-formations.
Code : GHOST30.
Cliquez ici !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Les datamarts Power BI
  3. Comprendre les datamarts Power BI
Extrait - Les datamarts Power BI Gérez vos sources de données métier
Extraits du livre
Les datamarts Power BI Gérez vos sources de données métier Revenir à la page d'achat du livre

Comprendre les datamarts Power BI

Définitions

1. Datamart générique

Mart est un mot qui puise son origine de l’allemand médiéval Markt, qui signifie « marché ». Le marché aux données se distingue d’un hypermarché de la donnée (dataware house) en la proximité et la simplicité d’accéder aux produits. Les utilisateurs ne se perdent pas dans un gros entrepôt de données où ils ont du mal à accéder aux données fraîches qui les concernent directement.

La définition des datamarts a évolué avec le temps. Une des premières définitions était celle de Ralph Kimball en 1998, animateur de conférence et auteur américain spécialisé sur les data warehouses. À cette époque préhistorique, le datamart était dépendant d’un data warehouse.

Voici un extrait du livre Le data warehouse - Guide de conduite de projet de Ralph Kimball, Laura Reeves, Margy Ross et Warren Thornthwaite, édité en français par les Éditions Eyrolles en 2005, traduit depuis une version de 1998 du livre US original :

« [un] data mart [est un] sous-ensemble logique d’un data warehouse.(…) Il représente un projet réalisable. Au-delà de cette définition, on considère souvent le data mart [en deux mots] comme la réduction de l’entrepôt de données à un seul processus ou groupe de processus ciblant un groupe métier spécifique. Un data mart sera généralement sponsorisé par un département ou une unité en particulier, et le plus souvent autour d’un processus précis ».

Voici la définition actuelle d’Oracle, éditeur réputé de logiciels de bases de données, qui reprend à son compte cette définition moderne : « Un Data Mart est une forme simple de Data Warehouse centré sur un seul sujet ou fonction, comme les ventes, le marketing ou la finance. [Il permet] d’améliorer le temps de réponse des utilisateurs grâce au catalogage des données spécifiques. Cependant, une spécialisation ne signifie pas nécessairement une petite taille....

Architecture technique

1. Schéma d’architecture technique

À l’heure où ces lignes sont écrites, il n’existe pas encore de schéma d’architecture technique interne du datamart de la part de l’éditeur. Dans cet ouvrage, cette architecture technique a été reconstituée à partir de toutes les informations collectées par l’usage du datamart ainsi que des produits tiers comme Tabular Editor, Dax Studio et Azure Data Studio. La reconstitution est également issue d’informations provenant de différentes interviews et du site web de l’éditeur.

Voici l’architecture technique descriptive de la solution en mode autonome.

images/Ch1-1NEW.png

Le schéma se lit de gauche à droite. Les langages utilisés sont indiqués en haut sous forme d’une brique grise : M puis Transact-SQL puis DAX.

À gauche, en zone Dataflow se trouve ce qui touche à Power Query Online : les connecteurs aux sources et le moteur de DataFlow (identique à celui déjà existant par ailleurs).

Après les transformations ou après la modélisation, une zone SQL permet de stocker les données et les relations dans une base de données Azure SQL DB.

À droite : la couche de Service d’Analyse Microsoft Analysis Server. En effet, la lecture des données par l’utilisateur ne va se faire en direct par des requêtes sur Azure SQL : cela passe par cette couche en mémoire vive, donc très rapide. Si vous ouvrez le point de terminaison XMLA de votre datamart avec un outil comme SSMS, vous verrez d’ailleurs la version de Microsoft Analysis Server utilisée.

En minuscules sur les flèches de liaison sont notées les protocoles : nous voyons l’importance du protocole XMLA.

En haut, nous voyons que c’est l’espace de travail qui catalogue les connexions de données et de passerelle. C’est ici qu’on peut les corriger et non dans les datamarts. C’est aussi là que les consommateurs de rapports peuvent consulter en lecture seule les rapports Power BI ou paginés attenants au datamart : ce sont les applications Power BI. Une application du service Power BI permet de regrouper plusieurs rapports et de distribuer ces rapports avec des menus simplifiés...

Les points forts du datamart

1. Un dispositif sûr, centralisé et unique

Le datamart Power BI permet aux concepteurs de rapports de disposer d’un modèle de données tout prêt, et d’une source de données unique et sûre, qui a été validée par un Data Stewart, que ce soit pour les données ou pour les mesures personnalisées qui y figurent.

À l’opposé des modèles sémantiques publiés partout sur le portail, qui créent de la confusion chez les utilisateurs, le datamart Power BI est un lieu unique et reconnu, qui contient un modèle de données tout fait, c’est-à-dire composé de tables, de relations entre tables et de mesures. Cet ensemble prêt à l’usage permet des filtrages des données clés du métier par des dimensions utiles telles que le temps (mois, année), et tout ce qui importe comme les typologies de produits, de pays ou de clients.

Les consommateurs de rapports n’ont pas besoin d’utiliser le datamart lui-même, mais plutôt leur « application » constituée de rapports prêts à consommer. Ils peuvent aussi voir en détail leur modèle sémantique si besoin.

Pour eux, le modèle sémantique du datamart est un endroit où ils peuvent éventuellement voir les données brutes et peuvent aussi les analyser dans un tableau croisé dynamique classique et qui porte le même nom que le datamart.

2. Nombre de connecteurs aux sources de données

La force de Microsoft par rapport à la concurrence est sa capacité à fédérer énormément d’éditeurs de logiciels ainsi que de grands noms des ERP et des bases de données qui sont partenaires et qui ont tout intérêt à fournir des connecteurs à jour aux datamarts. Il y a aujourd’hui plus de cent connecteurs pour les datamarts, dont un consacré… aux datamarts, ce qui permet de faire un datamart de datamart(s).

Par ailleurs, au-delà de la quantité est la qualité : tous les éditeurs importants en volume sont présents, cela va d’Oracle à SAP en passant par Salesforce, Databricks, MySQL et Postgres. Bien sûr...

Les points faibles du datamart

1. Les connecteurs absents

À l’heure où ce livre est écrit, les datamarts ne peuvent pas ouvrir directement certaines sources de données à l’aide d’un connecteur gratuit pour les cas suivants :

  • fichier d’export de relevé bancaire OFX - Open Financial Exchange

  • Azure Data Lake Storage Gen1 (trop ancien)

  • Pubnub pour les flux de données en streaming

2. Un logiciel jeune

Les datamarts ont été mis en ligne le 23 mai 2022 en mode Aperçu (Preview). Microsoft s’est donné beaucoup de temps pour compléter et tester le dispositif et le coordonner avec Microsoft Fabric, arrivé un an plus tard et qui peut héberger les datamarts dans sa capacité. Les datamarts ont permis de tester puis de généraliser certains de leurs composants dans Fabric comme Power Query Online. Il n’a pas le droit à l’erreur, car la Data d’entreprise ne peut pas se permettre d’amateurisme et il n’y a pas de seconde chance si la première opinion était défavorable. Il est vivement recommandé d’attendre que la solution passe en disponibilité générale - GA, avant de mettre en production.

Un an après, le coût d’usage de CPU de datamart dans le cadre de capacités réservées (SKU) n’était pas défini, attendant probablement la disponibilité générale - GA, pour se coordonner avec Microsoft Fabric. Ce livre donne les liens utiles en ce sens dans ce même chapitre dans la section Coût des datamarts - Achat de licence.

3. Le chargement des données

Binaires

Même si SQL Server gère les images, il n’est pas possible (ni très souhaitable) de récupérer des binaires dans les datamarts Power BI, pour récupérer des fichiers d’images de type Base64 ni des colonnes SQL de type...

Les fonctions du datamart

Voici une vue d’ensemble du périmètre fonctionnel des datamarts.

1. Vue d’ensemble du périmètre

Voici une vue d’ensemble du périmètre de la solution Power BI datamart. Ce panorama est pratique pour se répartir le travail à plusieurs et construire un planning.

images/POSDatamartNEW.png

2. Processus à suivre

Une fois que l’espace de travail Premium est créé, voici le processus à suivre pour élaborer un premier datamart.

images/Ch1-40.png

Lorsqu’on passera en grandeur nature, une étape de planification et de gestion de projet devra commencer en amont, et se prolonger tout au long du processus. 

3. Sourcer les données

Pour obtenir les données du datamart, plus de cent connecteurs Power Query sont disponibles dans l’interface utilisateur en ligne permettant de « choisir une source de données ». Il est possible de choisir une table vide, plusieurs sources successivement et recopier des sources d’un datamart à un autre.

Ce nombre évolue au fil du temps. Nous pouvons classer les connecteurs en six catégories (dans l’ordre d’apparition) :

Fichiers

Classeur Excel, JSON, Parquet, PDF, Texte/CSV, XML, Dossier, Dossier SharePoint

Bases de données (19)

Base de données SQL Server, Access, Oracle, IBM DB2, MySQL, Postgres, Sybase, TeraData, SAP Hana, Serveur d’applications SAP BW, Serveur de messages SAP BW, SnowFlake, Google BigQuery, Amazon Redshift, Impala, Vertica, Cubes AtScale, Dremio Cloud, Dremio software

Services en ligne (37)

Liste SharePoint Online, Microsoft Exchange Online, Objets Salesforce, Rapports Salesforce, Google Analytics, Adobe Analytics, Asana, Assemble Views, Autodesk Construction, Automation Anywhere, Automy Data Analytics, CData Connect Cloud, Databricks, Digital Construction Works, Dynamics 365 Business Central, Dynamics 365 Customer Insight, Emigo Data Source, Entersoft Business Suite, FactSet Analytics, Funnel, Hexagon PPM Smart API, Industiral App Store, Entrepot de Données Intune, Planview Entreprise Architecture, Planview IdeaPlace, Planview Portfolios, Planview ProjectPlace, Product Insights, Profisee, Quickbase, Smartsheet, SoftOne BI, TeamDesk, Webtrends Analytics, Witivio, Zoho Creator, eWay-CRM

Power Platform (4)

Flux de données (DataFlows), Power BI DataFlows hérité (ancien), Dataverse...

Coût des datamarts

Le datamart étant une fonctionnalité Power BI Premium hébergée dans une capacité Premium ou bien Fabric (selon votre choix), le coût de la solution Power BI datamart est intimement lié au prix des licences et des SKU Power BI Premium et Microsoft Fabric. Une SKU est une référence produit indiquant une puissance de calcul et un stockage réservé. Des liens sont indiqués ci-après pour rester informés en fonction des évolutions de l’éditeur.

La licence Premium par utilisateur permet de créer et de lire des datamarts à un coût très raisonnable, pour un petit nombre de consommateurs et de créateurs. 

Dans le cas où vous appartenez à une grande organisation et où vous disposez déjà de Power BI Premium par capacité (PPC), les datamarts n’auront pas de coût ni d’exigence de licence supplémentaire, sauf leur consommation de CPU sur votre capacité.

1. Licence d’évaluation

Dans le cas où vous effectuez un test pilote de soixante jours, il n’y aura aucun coût à prévoir, grâce à la licence d’évaluation Microsoft Fabric, qui inclut les fonctionnalités Power BI Premium, comme les datamarts ou les pipelines de déploiement Power BI, et une Capacité non réservée de 64 unités, soit 8 v-core Power BI.

À l’heure où ces lignes sont écrites, il existe une licence d’évaluation large sur soixante jours pour Microsoft Fabric et qui offre une licence Fabric aux utilisateurs dotée d’une capacité de traitement de 64 unités (soit l’équivalent de 8 v-core Power-BI) avec 1 To de stockage de fichiers et de tables en data lake Fabric et 10 Go pour chaque espace de travail.

Cette licence est vraiment idéale pour créer ses premiers datamarts Power BI. On sait que les datamarts ne savent pas bien stocker les images et le stockage OneDrive prévu par les connecteurs de type Fichier utilise par défaut une URL nominative (avec le nom de l’utilisateur), ce qu’il faut absolument éviter dans une source de données.

Le data lake nommé OneLake (de 1 téraoctet) inclus dans...

Comparatif Dataflow, Dataset et datamart

Les trois solutions sont complémentaires et ne sont pas équivalentes. Voyons comment choisir la meilleure en fonction de son contexte.

1. Datamart versus flux de données

Un Dataflow ou « flux de données » est une solution de préparation de données qui peut être utilisée sur différentes technologies de la Power Platform (Power Apps, Dynamics, Power BI…) et qui opère des transformations Power Query en ligne.

C’est aussi in fine une source de données. Cette source est peu visible dans le portail Power BI Service : nous ne pouvons pas filtrer les Dataflows au niveau global pour mieux les voir.

Le dataflow Power BI (non datamart) est un Power Query Online capable de poster les données dans un data lake dans le cloud. Celui de Power Apps stocke dans une base Dataverse, alors que les datamarts sont stockés dans Azure SQL DB, réputé plus rapide pour les gros volumes.

Le résultat du Dataflow du service Power BI classique (non Fabric et non Datamart) est une collection de tables stockées sur Azure Data Lake Gen2. Ce n’est pas un modèle sémantique. Et comme ce n’est pas un modèle sémantique, il est peu visible. Cette collection de tables est absente du hub de données OneLake de Power BI Service et nous ne pouvons pas voir ses données directement, ce qui est très perturbant. Le datamart au contraire est très visible et immédiatement opérationnel.

On ne peut trouver un Dataflow que dans l’espace de travail où il a été créé.

Enfin, le Dataflow Power BI est accessible et peut être actualisé avec une licence Pro (ou PPU) avec un espace de travail de base, donc très bon marché, ou dans un espace BI Premium totalement configurable en termes de puissance et de mémoire.

Le stockage du Dataflow Power BI peut aller de 10 Go par utilisateur ayant une licence Pro à 100 To pour une licence Premium P1 ou supérieure, à comparer avec les 100 Go d’espace maximum du datamart à l’heure actuelle. Ceci s’explique par le coût très faible de stockage des données dans un data lake, qui n’est pas un moteur de gestion qui tourne en permanence...

Liens utiles

Voici quelques adresses utiles pour trouver de l’information sur le positionnement des datamarts dans l’offre Microsoft :

Page : Présentation des datamarts - Power BI | Microsoft Learn :

https://learn.microsoft.com/fr-fr/power-bi/transform-model/datamarts/datamarts-overview