Blog ENI : Toute la veille numérique !
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
💥 Les 22 & 23 novembre : Accès 100% GRATUIT
à la Bibliothèque Numérique ENI. Je m'inscris !
  1. Livres et vidéos
  2. Open Data
  3. Créer des rapports
Extrait - Open Data Consommation, traitement, analyse et visualisation de la donnée publique
Extraits du livre
Open Data Consommation, traitement, analyse et visualisation de la donnée publique
1 avis
Revenir à la page d'achat du livre

Créer des rapports

Visualiser rapidement de la donnée

Après un chapitre consacré au nettoyage de la donnée en amont, le présent chapitre s’attache à la visualisation des données propres issues de ces manipulations. Il s’agit d’une première étape d’exploitation avant l’analyse numérique "lourde" qui sera détaillée au prochain chapitre.

Comme pour le chapitre précédent, plusieurs des outils standards du marché seront montrés de façon que le lecteur puisse associer le bon outil au bon usage, voire simplement trouver le logiciel dont l’ergonomie lui convient le mieux. De fait, le choix de tel ou tel outil pour un exemple de visualisation donné ne signifie en rien que les autres outils n’ont pas cette capacité, mais simplement que l’outil choisi lui est bien adapté.

Nous commençons ce chapitre sur la visualisation de données par l’approche la plus simple possible, en nous mettant dans la peau d’une personne souhaitant avoir une représentation le plus rapidement possible. Il s’agit clairement d’un usage courant : dans les métiers de la donnée, les analystes sont souvent soumis à des demandes urgentes de la part de leur hiérarchie et, bien qu’une partie de leur temps de travail leur permette de poser en amont une vraie réflexion, il n’est pas rare que certains travaux leur soient demandés avec des délais extrêmement courts. Ce scénario est d’ailleurs fréquent dans les collectivités locales, dont il faut rappeler qu’elles sont elles-mêmes les premières consommatrices des données ouvertes qu’elles publient. Les élus sont en effet très souvent demandeurs de rapports sur les finances, les projets ou les budgets, et les contraintes des commissions font que ces études doivent souvent être fournies en urgence.

Lorsqu’un utilisateur est habitué à un logiciel qu’il maîtrise, le choix de ce logiciel importe peu, et l’utilisateur ira toujours plus vite avec un logiciel qu’il connaît par cœur qu’avec un autre, même si celui-ci est censé être plus intuitif. Par contre, si l’utilisateur n’a pas d’expertise...

Croiser des données pour plus de puissance

Le premier exemple de visualisation de donnée ouverte ci-dessus avait pour but d’être rapide et simple. Dans des analyses plus réalistes, les sources de données sont multiples et il convient de montrer comment croiser ces sources pour produire des rapports plus pertinents. Bien que Qlik Sense soit tout à fait en mesure de croiser des données, la présente section utilisera QlikView, un autre produit de la société Qlik, afin de familiariser le lecteur avec le plus de produits possible. QlikView est plus ancien que Qlik Sense, et là où ce dernier se concentre sur la facilité de manipulation par l’utilisateur final (celui qui analyse les données), QlikView est plus puissant, mais nécessite une étape de préparation du modèle par un profil plus expert, typiquement un développeur ou un gestionnaire de bases de données.

1. Installation de QlikView

QlikView dispose d’une version dite "Personal Edition" qui permet une utilisation non commerciale de manière gratuite, et ce sans limite de temps ni de fonctionnalités. À moins que vous ne disposiez d’une licence pour la version commerciale, c’est cette version qu’il vous faudra télécharger depuis le site de l’éditeur Qlik, en localisant d’abord le produit :

images/03RI39.png

Il sera alors nécessaire de donner vos coordonnées et de vous enregistrer pour ensuite accéder au lien permettant le téléchargement de la version Personal Edition, comme montré ci-dessous :

images/03RI40.png

Une fois le fichier d’installation téléchargé, son lancement vous demandera de confirmer quelques options et paramètres, comme la langue, l’acceptation d’une licence, la fourniture de votre nom et de votre organisation, etc. Sauf manque criant d’espace disque, il est recommandé d’accepter l’installation standard, contenant tous les modules associés au produit principal :

images/03RI41.png

2. Préparation des données pour l’analyse

L’exemple choisi pour cette section consiste à analyser la répartition des forts patrimoines en France, en se basant pour cela sur les données de l’Impôt de Solidarité sur la Fortune. Les données de l’ISF...

Aborder la dataviz

1. Concepts de dataviz

Le concept de dataviz, abrégé de data visualization, véhicule un peu plus de sens que sa simple traduction française en visualisation de données. Le terme anglais est utilisé dans le cadre d’un renouveau récent des outils de visualisation de données. La richesse des représentations disponibles mais aussi la facilité d’accès pour des non-spécialistes et enfin la volonté de mieux prendre en compte la qualité de la connaissance fournie au consommateur sont trois enjeux constitutifs de la dataviz. Reprenons ces trois points dans l’ordre.

Tout d’abord, au-delà des traditionnels camemberts et histogrammes, les approches dataviz cherchent à utiliser au mieux d’autres représentations moins connues, mais parfois plus pertinentes, comme les nuages de mots, les histogrammes radar, les treemaps (cartes proportionnelles), etc. L’approche consiste à trouver le mode de représentation qui fera mouche et rendra immédiatement compréhensible une information à l’utilisateur. Pour arriver à ses fins, le concepteur de dataviz n’hésite pas, en plus de ceux présentés plus haut et qui sont nombreux, à créer ses propres modes de représentation.

Le mouvement dataviz est complémentaire du mouvement Open Data dans le sens où un de ses objectifs principaux est de transformer la masse de données ouvertes de façon à rendre son exploitation intuitive et plus simple. Les concepteurs dataviz sont de manière générale animés par le désir de véhiculer de l’information de manière simple, bref tout simplement de se faire comprendre, préoccupation que les analystes de données "traditionnels" avaient parfois perdue de vue, comme tend à le démontrer la complexité affolante de certains classeurs Excel, lisibles uniquement par leurs auteurs.

Enfin, le concepteur dataviz garde à cœur d’étendre la qualité de la donnée à la qualité de la représentation qui en est faite. La qualité de la donnée est un prérequis à son analyse, trop souvent oublié car nécessitant des opérations...

Une autre approche de la dataviz

Il y a tellement de modes d’affichage et d’outils différents dans le domaine de la dataviz qu’il est impossible de tous les couvrir. Toutefois, il serait dommage de ne pas montrer au moins un exemple de treemap, et ce court exemple est également l’occasion de montrer un autre très bon outil, gratuit celui-là, à savoir Power BI Desktop. Power BI est la suite de Business Intelligence légère de Microsoft, et Power BI Desktop est l’application de bureau permettant de mettre en place des analyses de données et des représentations de type dataviz. Comme ses concurrents, Power BI Desktop permet ensuite d’envoyer ces analyses sur un serveur web.

1. Installation de Power BI Desktop

Le module d’installation de Power BI Desktop peut être récupéré depuis le site web de Microsoft à l’adresse : https://powerbi.microsoft.com/fr-fr/desktop/

images/03RI170.png

Il est inutile de s’attarder sur l’installation de l’outil, qui ne pose pas la moindre difficulté.

2. Recherche des données

Afin de varier les plaisirs également sur les sources de données, c’est le portail des données ouvertes de Toulouse Métropole qui sera utilisé pour fournir les données nécessaires à l’exemple ci-dessous. De plus, ces données seront récupérées par l’API du site au lieu d’utiliser un téléchargement de fichier, et le format sera JSON, que nous n’avons pas utilisé pour l’instant.

Une API (Application Programming Interface) est un ensemble de fonctionnalités consommables par une application logicielle. Celles-ci sont mises à disposition sous forme de fonctions définies par un nom, prenant des paramètres en entrée et renvoyant un résultat informatique lors de leur appel. Les API sont traditionnellement utilisées pour automatiser les traitements, car elles permettent d’outrepasser l’opération manuelle de téléchargement d’un fichier avant son exploitation. En s’adressant aux informaticiens, elles ouvrent ainsi le chemin à des réutilisations plus sophistiquées.

Le portail de Toulouse Métropole possède les caractéristiques d’un site...

Cartographier la donnée

Après des débuts calamiteux en termes de qualité de données au niveau national, le mouvement Open Data produit en France des sources de plus en plus propres. En plus des données rectifiées, des doublons supprimés et des valeurs nulles comblées, la géolocalisation devient de plus en plus courante et, grâce aux coordonnées fournies dans les sources, la production d’une carte tient moins du parcours du combattant qu’il y a quelques années.

1. Sélection des données

Afin de montrer que certains sites récents offrent des fonctionnalités de confort très appréciables, le jeu de données utilisé pour cette section sera récupéré sur le site Open Data de la région Ile-de-France, qui est particulièrement puissant et respectueux des standards modernes, tout en restant d’un abord très simple.

 Accédez à cette adresse : http://data.iledefrance.fr/explore/dataset/librairies-en-ile-de-france0/, ou faites une recherche sur le mot-clé Librairies sur le site http://data.iledefrance.fr et sélectionnez le jeu de données voulu.

La page suivante s’affiche :

images/03RI197.png

Les menus montrent que la donnée peut être consultée sur place sous forme de tableau de données, mais aussi directement sous forme de carte. Le site est particulièrement bien fait, car les facettes sur le côté gauche sont en lien dynamique avec la carte :

 Cliquez sur l’entrée PARIS dans la liste Ville (panneau de filtre sur la gauche).

La carte se rafraîchit et le niveau de zoom augmente pour s’ajuster sur la ville de Paris seulement. L’affichage des points correspondant aux librairies est également dynamique par rapport au niveau de zoom, avec des bulles de taille et couleur dépendant du nombre de librairies couvertes, information qui est reprise textuellement :

images/03RI198.png

Le site dispose également d’une entrée API, extrêmement pratique pour les développeurs et tous les usages avancés. Nous ne pourrons malheureusement pas nous en servir car Google Maps (que nous allons utiliser) n’accepte que des fichiers et ne peut se brancher directement sur une API. Le futur verra toutefois certainement ce genre de situations évoluer...

Traiter des réseaux de données

1. Spécificité des réseaux de données

Jusqu’à maintenant, les exemples traités dans ce livre n’ont concerné que des données tabulaires, c’est-à-dire qui pouvaient s’exprimer sous forme de lignes contenant chacune un ensemble de valeurs correspondant à des colonnes qui leur étaient communes. Les lignes n’avaient donc aucune relation entre elles : elles pouvaient être considérées de manière indépendante, et le fait d’utiliser seulement une partie d’entre elles était totalement valide.

Il existe - bien qu’ils soient beaucoup moins nombreux que les exemples de données tabulaires - des cas où les données sont mieux décrites sous forme de réseaux reliant des entités les unes aux autres. Les entités sont alors appelées des nœuds. Les nœuds portent des données de la même manière que des lignes d’un tableau le feraient. Mais en plus de ces nœuds, les réseaux comprennent des liens entre ces nœuds, qui eux-mêmes peuvent être porteurs de données. Une donnée de base sur les liens est leur aspect directif. Si l’orientation d’un lien d’un nœud vers un autre a du sens, et que les nœuds ne sont pas simplement reliés, mais qu’un point qui va vers l’autre n’a pas la même signification que l’inverse, alors le réseau est décrit comme un graphe "dirigé".

Les données de graphes, du coup, sont souvent décrites à l’aide de deux fichiers CSV, l’un décrivant les nœuds et le second portant les informations de liens entre les nœuds. En pratique, il existe des formats dédiés aux graphes, comme le GML, le GDF ou GraphML, et qui portent la totalité de l’information dans un seul fichier.

2. Récupération de données

Plutôt que de créer de toutes pièces un exemple de données sous forme de graphe et de fournir une illustration sans grande valeur, il a paru plus intéressant à l’auteur de faire une exception à la donnée Open Data et de se rabattre sur une donnée qui ne répond...