Name: Vade-mecum de l'informatique contemporaine (TCP, SOA, Linux, Python, Docker, HDFS, RDF, Adam, OWASP, KPI, UML, Scrum…)
Rating: 5 (2 reviews)

Introduction

Pour stocker puis accéder aux données (« sérialiser » les données), on dispose d’un grand choix de moteurs de bases de données que l’on utilise lorsque l’on juge utile de ne pas se cantonner aux fichiers « plats » comme le sont les fichiers .csv. Un certain nombre de bases respectent des contraintes très strictes pour assurer la cohérence des données et s’avèrent accessibles via divers dialectes, dont le plus connu est SQL (Structured Query Language), d’autres s’affranchissent de certaines de ces contraintes pour gagner en performance, en capacité à intégrer des informations peu ou pas structurées (textes, images, vidéos, musiques, etc.).

Vous pouvez facilement vous familiariser avec la manipulation de diverses bases en installant localement un outil générique d’accès à ces bases comme DBeaver.

Sous Windows, qui ne dispose pas naturellement d’une gestion de packages aussi efficace que Linux, vous pouvez installer de nombreux logiciels de façon simple et réversible en utilisant l’outil chocolatey. Avec cet outil, l’installation de DBeaver s’effectue en une seule ligne de commande via le terminal Windows : choco install dbeaver.

Voyons maintenant les grands concepts permettant de qualifier les structures intimes...

Les concepts CRUD, 3NF, ACID, OLTP (et pas OLAP !)

1. CRUD

CRUD représente les quatre opérations de base de gestion de persistance des données sur une base de données :

Create : créer ;
Read : lire ;
Update : mettre à jour ;
Delete : supprimer.

Dans les architectures décisionnelles (BI), on évite les opérations Update et Delete. On préfère dupliquer les enregistrements en leur apposant des index d’horodatage, de la forme date/heure/min/seconde (un timestamp typiquement exprimé dans le format de date du standard POSIX) stipulant leur date de création et le cas échéant ajouter un enregistrement spécifique avec son timestamp pour signifier que les enregistrements de mêmes index ne sont plus valables. Ainsi on conserve toute la traçabilité des évolutions du système d’information et l’on peut unir sans danger plusieurs tables de même nature extraites à des dates différentes à partir des systèmes transactionnels, ceci moyennant l’élimination des doublons. La base HBase d’Hadoop est très efficace dans ce type de contexte de mise à jour incrémentale du data lake.

2. Les formes normales, en se limitant au niveau 3NF

a. Relations (associations)

Avant d’explorer le concept de forme normale, remarquons qu’une table représente toujours une relation entre les attributs décrits dans ses colonnes.

Dans une relation (une association) bien construite, on dispose du nom de la relation, représenté par le nom de la table en représentation relationnelle, du déterminant de la relation (une liste cohérente d’attributs qui identifient le sujet de la relation) et du déterminé de la relation (une liste cohérente d’attributs qui identifie l’objet de la relation).

On retrouve des concepts similaires dans d’autres contextes de représentation et stockage de l’information :

Les relations/associations se rapportent à la notion de prédicat dans le Web sémantique et dans la représentation de la connaissance (knowledge) souvent stockée dans des triplets RDF (Resource Description Framework).
Les relations correspondent également à...

Les concepts liés aux databases de la BI et du BigData

La BI, pour Business Intelligence, est en fait un terme marketing qui recouvre les techniques de reporting, interactives ou pas. On la dénomme parfois analytics ou « décisionnel » pour mettre en évidence le fait que de bonnes statistiques et de bons rapports président à de bonnes décisions.

Les entrepôts de données (data warehouse) étaient au centre des architectures BI. Depuis que les volumes de données ont explosé, il a fallu adjoindre à ces entrepôts de données structurés et centralisés des clusters de données massivement parallèles sur de nombreux nodes. Quand ces données sont collectées sans a priori sur leur usage futur, on est souvent amené à les stocker sous une forme un peu générique que l’on nomme datalake.

Sur ces entrefaites, l’arrivée du Machine Learning, une branche de l’intelligence artificielle qui permet d’inférer (prévoir) sur des données massives ou de trouver des similitudes entre ces données (clustering), a complexifié les architectures.

Cette accélération continue aujourd’hui, puisque les modèles actuels évoluent rapidement en puissance et en consommation de ressources, en témoigne l’essor des réseaux neuronaux profonds (deep learning).

Enfin l’IA générative, comme ChatGPT, complète aujourd’hui le paysage, sans pour autant que celle-ci ait une très grande influence sur l’architecture technique sous-jacente à nos systèmes d’information (à ce jour !).

Quand les données sont issues de systèmes relationnels, on aime les agréger sous une forme puissante et centralisée s’appuyant sur des data warehouses bien nettoyés et structurés qui ne concernent que des données comportant une grande part de données numériques et qui porte le doux nom de « hypercube OLAP ».

1. OLAP

Il ne faut pas confondre OLTP et OLAP. Cette confusion est entretenue par le fait que certaines architectures de stockage très modernes gèrent aussi bien l’un que l’autre (comme les machines Exadata d’Oracle). Pour...

Méthodes - Bien gérer les données