Name: La data Guide de survie dans le monde de la donnée (2e édition)
Rating: 5 (2 reviews)

Introduction

1. Objectif

L’objectif de ce chapitre est de passer en revue les outils et moyens à mettre en œuvre afin de mieux comprendre et analyser les données. Comme vu dans le premier chapitre, une donnée peut avoir différentes caractéristiques. Selon son usage il est donc indispensable soit de parfaitement la comprendre, soit de la remodeler (ou la nettoyer) pour l’utiliser. N’oublions pas qu’une donnée peut être interprétée différemment, voire de manière opposée, selon le contexte. La compréhension, l’analyse et le redressement des données vont donc dépendre de son usage et de son contexte.

Une donnée est par ailleurs vivante et possède un cycle de vie propre. Elle peut donc varier, s’altérer dans le temps ou tout simplement subir des changements lors de son transport ou dans son support de stockage.

On comprend alors que pour une même donnée, il est possible de l’analyser sous plusieurs angles et à différents stades de son existence. On peut même y apporter diverses modifications ou altérations en fonction des objectifs et des contextes.

2. Explorer avant d’analyser

Avant de pouvoir utiliser une donnée, il est donc important de la comprendre pour vérifier qu’elle correspond aux attentes au moment de son utilisation. Imaginez que l’on récupère des jeux de données non documentés et non expliqués. Dans ce cas, il est indispensable de passer par l’exploration, même si cela peut paraître fastidieux. Cette étape peut en effet sembler monotone, voire inutile dans la mesure où elle n’est pas guidée par un objectif précis. Néanmoins, cette bonne pratique permet de s’assurer que les données que l’on...

La préparation de données

Malheureusement, les données ne sont pas toujours prêtes à l’usage qui leur est destiné. En l’état, il est rarement possible de les utiliser afin de produire les résultats attendus (comme l’évolution d’un chiffre d’affaires, le calcul d’un indicateur de satisfaction, etc.). Dans l’immense majorité des cas, il faut retravailler les données brutes afin de les rendre exploitables pour une analyse, une alimentation ou même une modélisation (Machine Learning). Il faut sans doute revenir de manière itérative sur la préparation des données, afin de réajuster le jeu de données en fonction des explorations ou analyses à effectuer. En un mot, la préparation est une étape à intégrer dès le début de l’analyse et qui reste active tout au long du processus.

Cette phase de préparation de données est en quelque sorte la face cachée de l’iceberg. Elle n’en est pas moins une étape importante qui s’avére très chronophage si elle n’est pas effectuée correctement. On dit par exemple que les analystes de données et autres data scientists passent plus de 80 % de leur temps à préparer leurs données. Il ne leur reste donc plus que 20 %...

Analyse technique

On note avant toute chose que l’analyse de données nécessite que les données soient mises à disposition sous un format tabulaire (lignes et colonnes). Ce chapitre concerne donc les données structurées. À l’heure actuelle, toutes les solutions (ou presque) fonctionnent avec des données structurées de la sorte. Quand les données non-structurées ou semi-structurées sont mises à plat (donc structurées), l’idée est ensuite de les analyser d’un point de vue technique. On va devoir les décrire, identifier les tendances et les données aberrantes (outliers).

Cette analyse a plusieurs noms : on l’appelle analyse descriptive, technique ou encore profilage de données (Data Profiling).

Elle permet de décrire l’échantillon de données - ou tout le jeu de données - en lisant le contenu de chaque colonne/ligne pour y découvrir les informations importantes. On peut y trouver de nombreuses métadonnées qui permettent d’enrichir la base de connaissances sur les attributs, comme la fréquence, la distribution des valeurs de données, les formats, les patterns, les valeurs nulles, minimums et maximums, etc. Le jeu de données est donc lu et scruté de fond en comble pour fournir une analyse et un état des lieux exhaustifs.

Mais les outils ou solutions de profilage de données permettent souvent d’aller bien plus loin en matière d’analyse. Nous allons voir en détail les différentes analyses qu’il est possible de réaliser sur un jeu de données sans pour autant en avoir une connaissance préalable. Pour ce faire, on pourrait utiliser des outils No-Code tels qu’Informatica, Talend ou SAS DataFlux qui, par simple clic, permettent d’obtenir des résultats d’analyse structurels des données complets. Mais nous allons plutôt utiliser ici la librairie Python ydata-profiling (anciennement Pandas Profiling), afin que chacun puisse tester ce type d’analyse sur son ordinateur.

Pour installer la librairie, il suffit de lancer la commande pip :

$ pip install ydata_profiling

Ensuite, il suffit d’ouvrir un dataframe avec la librairie Pandas et de lancer le profiling :

from ydata-profiling...

Le Data Mining pour aller plus loin dans l’analyse

1. Qu’est-ce que le Data Mining ?

Le Data Mining (ou fouille de données) est en quelque sorte considéré comme une exploration de données avancée ; il fait donc partie intégrante de l’EDA. Il implique d’ailleurs l’utilisation de techniques statistiques, d’algorithmes d’apprentissage automatique (régression, regroupement, etc.) mais aussi d’autres méthodes diverses et variées pour extraire des informations ou des tendances à partir des données. Outre ces techniques et méthodes, des compétences avancées en statistiques et en probabilités sont nécessaires ainsi que, souvent, des compétences en programmation R et/ou Python.

Après avoir analysé d’un point de vue technique le jeu de données, le Data Mining permet d’aller au-delà de la simple compréhension des données et identifie des modèles (tendances) cachés ou des relations complexes à partir de grandes quantités de données (pour être statistiquement cohérent). Cela peut inclure la détection de relations entre les variables, la découverte de schémas récurrents ou la mise en évidence de comportements inhabituels.

Mieux, le Data Mining permet aussi d’identifier des structures sous-jacentes dans les données qui peuvent ne pas être immédiatement évidentes. On cherche souvent à construire des modèles prédictifs à partir des données existantes. Ces modèles peuvent être utilisés pour faire des prédictions sur des événements futurs ou des comportements inconnus. Par exemple, la prédiction de ventes...

Analyse fonctionnelle et visualisation de données

Nous avons vu précédemment comment mieux comprendre la façon dont étaient structurées et formatées les données dans un jeu de données et comment en extraire les tendances, retirer les données aberrantes, etc. En réalité, il est plutôt rare que l’analyse structurelle ou physique des données soit suffisante car, comme déjà évoqué, une donnée n’a de valeur et de sens que lorsqu’elle est placée dans un contexte. Il est donc indispensable d’approfondir l’analyse des données pour leur donner de la profondeur en comprenant mieux comment elles s’articulent d’un point de vue fonctionnel.

Pour mieux comprendre les données, on va devoir chercher des relations (intra ou inter jeux de données), des tendances, des groupements, etc. C’est véritablement de cette manière que l’on va pouvoir ajouter de la valeur aux données explorées.

Mais disons-le franchement, il n’existe pas d’outil magique qui permette de prendre des données en entrée pour produire en sortie la conclusion attendue ! Une bonne connaissance du métier, du contexte, voire des organisations est, et reste, indispensable. Il est donc nécessaire de combiner de bonnes connaissances fonctionnelles à des outils appropriés pour faire ressortir les résultats qui font sens.

En ce qui concerne les outils, ou plutôt le type d’outils, il faut tout d’abord se tourner vers les outils de DataViz (visualisation de données). Ces outils, grâce à leur souplesse et leur approche visuelle, sont davantage à même de mettre en évidence les conclusions à tirer des données. Ce sont aujourd’hui des outils indispensables et les analystes techniques ou fonctionnels ne peuvent s’en passer.

1. Visualiser pour mieux analyser !

Pourquoi associer visualisation de données et analyse fonctionnelle des don-nées ? Sans doute parce que notre cerveau n’est pas capable de comprendre ni d’analyser des jeux de données bruts. Est-on capable de trouver un problème ou de déterminer une tendance dans un tableau de valeurs faisant plusieurs milliers de lignes ?...

Quelques exemples d’analyse

1. L’analyse de données de cohorte

L’analyse de cohorte est un type d’analyse particulièrement utilisé par les équipes marketing car il permet d’analyser des segments de population (au sens statistique) afin de pouvoir en extraire des caractéristiques ou des comportements communs. Ce type d’analyse est aussi très utilisé pour extraire des informations ou plutôt les facteurs d’influence de chaque groupe (ou cohorte) sur les autres.

Ce type d’analyse est très fréquent par exemple dans le e-commerce ou dans tout type d’activité qui vise à faire adhérer le plus de monde possible de manière générale.

Analyser le taux de conversion de personnes utilisant une version gratuite qui souscrivent à une version payante (premium) est un cas d’école.

Voici un excellent exemple pour illustrer ce qu’est une analyse cohorte : on imagine une société qui lance une campagne marketing d’ampleur. Les téléconseillers sont alors chargés de passer un grand nombre d’appels dans le but de prendre des rendez-vous avec des prospects.

Voici le fichier des appels et rendez-vous tel que relevé après quatre jours de campagne :

Jour	Nombre d’appels	Rendez-vous pris	Taux de transformation
J1	100	10	10 %
J2	150	30	20 %
J3	120	40	33 %
J4	90	50	55 %

À y regarder de près, le taux de transformation est assez peu stable d’un jour à l’autre (on passe de 10 % à 20 % le lendemain, etc.). Le problème ici est que les téléconseillers gèrent des rappels et que les clients appelés la veille peuvent convenir du rendez-vous le lendemain par exemple.

Pour résumer, et c’est un phénomène que l’on retrouve régulièrement...

Qualité de la donnée

On vient de voir comment analyser et qualifier les données d’un point de vue technique avec le profilage de données et du point de vue fonctionnel avec la visualisation de données. Mais comment déterminer si la donnée est de bonne qualité ?

1. Objectifs de la qualité de données

Il peut y avoir beaucoup de raisons pour lesquelles la qualité de données devient fondamentale. La finance est un secteur qui investit beaucoup dans les projets de qualité de données (pour leurs besoins propres mais aussi en raison de nombreuses contraintes régulatoires). Voici quelques exemples de projets :

les projets autour de la gestion d’identité (gestion de données de tiers, projets KYC (Know Your Customer), construction de MDM pour la vue unique de tiers et organisation, détection de fraude) ;
la gestion des risques (KPI et monitoring sur les données, modélisation, agilité) ;
les projets liés aux contraintes réglementaires (GDPR , Basel, Solvency II, BCBS 239, FATCA) ;
les projets analytiques Big Data (intégration de données sociale et fraude, analyse de portefeuille) ;
la sécurisation de données (GDPR, développements et tests Off/On Shore, réglementations/rétention des informations, acquisition et monitoring de la qualité de données ML/OFAC, contrats d’assurance vie en déshérence) ;
les grands projets de modernisation et de décommissionnement applicatifs (migration, validation et tests/recette, synchronisation, archivage, intégration cloud) ;
les projets d’intégration de données partenaires (SWIFT, SEPA, Hup de paiement) ;
les programmes dans les salles de marchés de capitaux (échanges de messages basse latence pour le front office, sécurité, FIX, FpmL, standardisation).

La qualité de données ne concerne bien entendu pas que le secteur financier. Voici d’autres exemples par secteur :

Santé (gestion des dossiers patients électroniques - DPE) : un projet de qualité de données dans le secteur de la santé pourra consister à standardiser les entrées de données et à éliminer les doublons dans les dossiers patients électroniques...

Bilan

À retenir
Il est important de distinguer l’exploration de données (sans objectif précis) et l’analyse de données. La compréhension d’un jeu de données s’effectue en plusieurs étapes : exploration (micro-analyse) - EDA ; analyse structurelle ou descriptive (Data Profiling) ; analyse fonctionnelle (avec notamment la DataViz). La qualité de données est une démarche qui permet de redresser les données par rapport à des constats effectués lors de l’analyse de données (erreurs, problèmes de format, suppression d’outliers, etc.). La qualité de données est souvent séparée en deux parties : le nettoyage vertical (colonne) effectué en général avec des règles ; le nettoyage horizontal (ligne) via dédoublonnage.
Aller plus loin
https://github.com/datacorner/ladata
Marché et éditeurs
EDA/Data Mining : SAS, R, Python, Board, H2O, RapidMiner, Oracle BI, Orange, IBM SPSS Data Profiling : IBM Infosphere, Informatica, Talend Data Preparation : Knime, Alteryx, Tableau Prep Data Quality : IBM Infosphere, Informatica, Talend, SAS Data Vizualization : Tableau, Qlik, MS Power BI

Analyser et fiabiliser les données