Né aux Etats-Unis, le mouvement Open Data consiste à ouvrir informatiquement au public les données issues de l'administration, dans le but de favoriser la transparence de l'action politique mais aussi de participer au développement économique par la création de nouveaux usages. En France, de nombreux portails sont disponibles, du niveau communal au niveau national, depuis quelques années.

Les données publiées sur les sites Open Data français sont très diverses. Elles sont parfois propres, parfois quasi-inutilisables. Elles peuvent être exposées par une API tellement bien faite que son usage est intuitif, ou à l'inverse fournies sous un format abscons et inutilisable sans une phase intense de nettoyage. Elles peuvent porter une richesse d'information énorme ou se révéler extrêmement décevantes à l'usage, de par leur manque de fraîcheur ou de précision.

Face à cette variété folle, ce livre ne vous spécialisera dans aucune technologie ni aucune approche d'analyse ou de visualisation, mais vous mettra le pied à l'étrier sur de nombreuses techniques très différentes de consommation, de façon que vous soyez prêts à tirer de l'information de n'importe quel type de données. D'Excel à QlikView en passant par Tableau ; de Power Query à Open Refine en passant par Wrangler ; de PowerPivot à R Studio en passant par OpenStreetMap, vous naviguerez dans de nombreux usages de la donnée ouverte et saurez au final choisir l'outil qui vous est le mieux adapté pour nettoyer, analyser ou visualiser la donnée Open Data.

En plus de cette approche très pratique de la consommation de données ouvertes, ce livre vous expliquera les fondamentaux de l'approche Open Data, vous informera sur la façon dont les collectivités locales produisent cette donnée, et vous aidera, que vous soyez consommateur ou même producteur, à éviter les pièges des formats. À l'issue de la lecture, votre meilleure connaissance du mouvement, des standards et des outils vous permettra d'aborder un futur où l'Open Data sera de plus en plus importante pour les citoyens.

Les chapitres du livre :
Le mouvement Open Data – Consommer des flux Open Data – Créer des rapports – Analyser de la donnée – Exposer de la donnée publique – Usages futurs

Téléchargements

Le mouvement Open Data

L'approche Open Data
1. 1. Principes
2. 2. Objectifs
  1. a. Transparence
  2. b. Valorisation économique
  3. c. Service rendu aux citoyens
  4. d. Valorisation interne
  5. e. La face cachée de l’Open Data
Historique du mouvement
1. 1. Débuts internationaux
  1. a. États-Unis
  2. b. Royaume-Uni
2. 2. Premiers essaimages en France
  1. a. Contexte législatif
  2. b. Les villes pionnières
3. 3. Mise en place au niveau national
4. 4. Massification
  1. a. Diffusion des portails
  2. b. Aspect légal
  3. c. Accompagnement associatif
Premiers résultats
1. 1. Applications
2. 2. Mobilité
3. 3. Capteurs
4. 4. Usage interne
5. 5. Premiers échecs
6. 6. Premiers succès
Utilisations de la donnée publique
1. 1. Centralité de l’usage
2. 2. Restriction des formats
3. 3. Caractéristiques désirables d’unportail Open Data
4. 4. Questions supplémentaires sur la donnéeouverte

Consommer des flux Open Data

Trouver des flux
1. 1. Data.gouv.fr
2. 2. Marchés de données
3. 3. Sites des collectivités
4. 4. Demander des flux
Principes de consommation
1. 1. Les questions à se poser
2. 2. Le choix du bon outil
Filtrage de données avec Power Query
1. 1. Installation de Power Query
  1. a. Téléchargement
  2. b. Activation du module
2. 2. Téléchargement d’un jeu de données à filtrer
3. 3. Manipulation du jeu de données dans PowerQuery
  1. a. Chargement et filtre des données
  2. b. Gestion de l’erreur de format
  3. c. Exploitation de la requête
4. 4. Approche alternative par utilisation de l’URL
5. 5. Affichage des résultats
Affinage des données avec OpenRefine
1. 1. Installation d’OpenRefine
2. 2. Récupération du jeu de données
3. 3. Chargement du jeu de données
4. 4. Gestion de l’encodage HTML
5. 5. Recherche sur mot-clé avec raffinement desmots
6. 6. Filtrage sur les places de marché
7. 7. Modification de valeurs
8. 8. Utilisation de l’histogramme de fréquence
9. 9. Retour sur la modification de valeurs
10. 10. Exporter les données
Manipulation de données structurées avec Wrangler
1. 1. Utilisation de l’ancêtre Data Wrangler
  1. a. Récupération de donnéesbrutes
  2. b. Lancement de Data Wrangler
  3. c. Restructuration des lignes
  4. d. Extraction des données
  5. e. Export des données
2. 2. Installation de Trifacta Wrangler
3. 3. Retravailler des données avec Trifacta Wrangler
  1. a. Choix de la source de données
  2. b. Création d’une source de données
  3. c. Analyse des histogrammes de colonnes
  4. d. Gestion de la première ligne
  5. e. Suppression des lignes vides
  6. f. Extraction du nom de l’état
  7. g. Recopie du nom de l’état
  8. h. Suppression des titres
  9. i. Changement du nom des colonnes
  10. j. Pivot inversé sur les données
  11. k. Export des données
  12. l. Export du script
Recomposition de données déstructurées avec Power Query
1. 1. Le bon outil n’est pas toujours celui qu’on croit
2. 2. Récupération du jeu de donnéesdéstructuré
3. 3. Envoi dans Power Query
4. 4. Découpage des données
5. 5. Typage
6. 6. Suppression des lignes vides
7. 7. Extraction de la valeur de l’état
8. 8. Duplication de la valeur de l’état
9. 9. Suppression des lignes de début de blocs
10. 10. Opération de pivot
11. 11. Renommage des colonnes
12. 12. Renommage des étapes
13. 13. Exécution de la requête
14. 14. Affichage d’un graphique
15. 15. Correction de l’erreur
Les limites de la restructuration de données
Autres fonctionnalités des outils
1. 1. Power Query
  1. a. Retour sur un classeur
  2. b. Autres transformations
  3. c. Fusion de requêtes
  4. d. Affichage du script
  5. e. Autres sources
2. 2. Trifacta Wrangler
  1. a. Outils avancés
  2. b. Gestion des données multi-valuées
  3. c. Pour aller encore plus loin
3. 3. OpenRefine
  1. a. Gestion avancée des facettes
  2. b. Manipulations de lignes
  3. c. Manipulations de colonnes
  4. d. Mécanisme de réconciliation

Créer des rapports

Visualiser rapidement de la donnée
1. 1. Installer Qlik Sense
2. 2. Récupérer des données depopulation
3. 3. Démarrer Qlik Sense
4. 4. Ajouter des données
5. 5. Créer une feuille d’analyse de l’évolutiondémographique
6. 6. Ajouter une feuille d’analyse sur la répartitionpar sexe
7. 7. Manipulation des feuilles
8. 8. Plus loin avec Qlik Sense
Croiser des données pour plus de puissance
1. 1. Installation de QlikView
2. 2. Préparation des données pour l’analyse
3. 3. Intégration des données dans QlikView
4. 4. Mise en place du lien entre les sources
5. 5. Affichage et manipulation des données
6. 6. Ajout de statistiques
7. 7. Mise en place d’un histogramme
8. 8. Création d’un tableau
Aborder la dataviz
1. 1. Concepts de dataviz
2. 2. Exemple de règle de représentationconforme
3. 3. Installation de Tableau
4. 4. Description de l’exemple
  1. a. Présentation des sources
  2. b. Préparation des données
5. 5. Création d’un classeur Tableau
6. 6. Liaison des sources de données
7. 7. Suppression des informations inutiles
8. 8. Feuille d’analyse des répartitions de votes
  1. a. Création de la feuille
  2. b. Description du cas d’usage
  3. c. Conception de la feuille
9. 9. Feuille d’affichage des écarts
10. 10. Feuille d’analyse de l’abstention
11. 11. Feuille d’analyse de la régionalisation duvote
12. 12. Regroupement dans un tableau de bord
Une autre approche de la dataviz
1. 1. Installation de Power BI Desktop
2. 2. Recherche des données
3. 3. Intégration des données depuis l’API
4. 4. Affichage du budget primitif
5. 5. Manipuler les données
6. 6. Publication de l’analyse
Cartographier la donnée
1. 1. Sélection des données
2. 2. Nettoyage des données
3. 3. Création de la couche dans Google Maps
4. 4. Ajout d’un second calque
5. 5. Plus loin avec les cartes
Traiter des réseaux de données
1. 1. Spécificité des réseauxde données
2. 2. Récupération de données
3. 3. Installation de Gephi
4. 4. Création d’un diagramme de réseau
5. 5. Export du diagramme

Analyser de la donnée

Analyse simple
1. 1. Récupération des données
2. 2. Manipulations préliminaires de l’API
3. 3. Insertion dans Excel
4. 4. Analyse des données
Gérer des données volumineuses
1. 1. Définition du volume
2. 2. Un mot sur OLAP
3. 3. Présentation de Power Pivot
4. 4. Import de la donnée dans Power Pivot
5. 5. Analyse des données du cube
Rapports sur de la donnée issue de cubes
1. 1. Présentation de l’exemple
2. 2. Intégration des données géographiques
3. 3. Génération du rapport
Analyse statistique de la donnée
1. 1. Une approche plus mathématique
2. 2. Choix de la source de données
3. 3. Utilisation de R
4. 4. Premières manipulations
5. 5. Application à l’analyse des émissions
6. 6. Avertissement sur la corrélation
Aller plus loin
1. 1. Outils de BI lourde
2. 2. Approches Big Data

Exposer de la donnée publique

Objectif
Préparer un projet Open Data
1. 1. Détermination de l’objectif
2. 2. Motivations constatées
3. 3. Législation et confidentialité desdonnées
4. 4. Communication
  1. a. Communication institutionnelle
  2. b. Partenariats
  3. c. Approche par hackathon
  4. d. Redistribution de notoriété
Exécution du projet
1. 1. Gestion de la donnée
  1. a. Choix des sources
  2. b. Nettoyage de la donnée
  3. c. Méthode d’exposition
  4. d. Mise en place d’un catalogue
  5. e. Gestion du moissonnage
2. 2. Construction du site
  1. a. Déterminer les objectifs
  2. b. Approche normée de la séparationdes responsabilités
3. 3. Faire vivre le portail
  1. a. Référencement
  2. b. Dans la durée
Quelques outils
1. 1. Frameworks
  1. a. CKAN
  2. b. OGDI
2. 2. Outils non spécialisés
3. 3. Offre dédiée

Usages futurs

Plus d’ambition
1. 1. Données stratégiques
2. 2. Mise à jour en continu
3. 3. Diffusion électronique de catalogue
4. 4. Utilisation de normes ou de formats pivots
5. 5. Croisement des données
6. 6. Donnée en 3D
Le futur
1. 1. Plus loin par du développement
2. 2. Flux continu
3. 3. Contribution citoyenne
4. 4. Internet des objets
5. 5. Big Data
6. 6. Smart City
7. 7. Urbanisation du système d’information
8. 8. Transparence

06/07/2021Version papier

Ok !

Anonyme

Jean-Philippe GOUIGOUX

Ingénieur avec un double diplôme en Génie des Systèmes Mécaniques et automatisation de l'Université de Technologie de Compiègne et de Cranfield University, Jean-Philippe GOUIGOUX travaille aujourd'hui pour Salvia Développement en tant que directeur technique d'un groupe de six business units, ce qui lui permet de mettre en œuvre son approche d'industrialisation de l'édition logicielle. Jean-Philippe GOUIGOUX est reconnu Microsoft MVP (Most Valuable Professional) dans diverses spécialités depuis 2011, et certifié TOGAF. Il intervient régulièrement en conférences sur des sujets informatiques variés allant de la gestion de données à Docker, en passant par la performance en .NET. Passionné par le partage de ses connaissances, il est auteur de plusieurs livres et vidéos parus aux Éditions ENI.