Qu’est-ce qu’une base de données ?

Nous allons introduire des concepts de base, en commençant par expliquer ce qu’est une base de données, quels sont les différents types de bases de données existantes ainsi que leurs principales caractéristiques, et quels sont les rôles des personnes chargées de travailler avec les bases de données.

D’un point de vue formel, une base de données peut être définie de manière générale comme un système informatique permettant de stocker une grande quantité de données liées et structurées.

Par conséquent, voici déjà trois caractéristiques importantes d’une base de données dont nous devons nous souvenir :

Les données sont très nombreuses : une base de données est créée en tenant compte de la nécessité de stocker une grande quantité d’informations. Une petite base de données peut contenir des centaines ou des milliers d’enregistrements, alors que pour qu’une base de données soit considérée comme grande, nous parlerions de centaines de milliers ou de millions d’enregistrements.

Le critère grand ou petit d’une base de données est relatif, mais l’idée à retenir est qu’une base de données est conçue pour stocker de grandes quantités de données, que nous le fassions ou non. De la même manière qu’un avion commercial de passagers a été conçu pour voler avec un grand nombre de personnes, bien qu’éventuellement le même avion puisse voler...

Types de bases de données

Il existe différents types de bases de données qui s’adaptent à nos besoins. Les bases de données peuvent être classées de différentes manières en fonction de leurs caractéristiques :

bases de données transactionnelles ;
entrepôts de données (Data Warehouses) ;
lacs de données (Data Lakes) ;
datamarts ;
bases de données centralisées ;
bases de données distribuées ;
bases de données spatiales ;
bases de données de recherche.

Cette liste n’est pas exhaustive et ne suit pas un ordre particulier en termes de classification. Elle sert simplement à présenter un aperçu des différents types de bases de données qui existent afin que le lecteur puisse mieux comprendre les concepts qui seront présentés plus loin.

1. Bases de données transactionnelles

Les bases de données transactionnelles sont le type de base de données le plus largement utilisé. Comme son propre nom l’indique, elles reposent sur l’utilisation d’un grand nombre de transactions.

Une transaction est une opération ou un ensemble d’opérations de base de données effectuées par le même utilisateur. Par exemple, un utilisateur qui effectue un virement bancaire implique une transaction dans la base de données de la banque, dans laquelle une requête (SELECT), une modification (UPDATE) et un appel à un processus externe sont effectués pour envoyer l’argent sur le compte bancaire de destination.

Nous pourrions dire que la principale caractéristique de ce type de base de données est qu’elle reçoit un grand nombre de transactions. En d’autres termes, il existe un nombre important d’utilisateurs qui effectuent des opérations plus ou moins lourdes par rapport à l’usage de la base de données.

Les caractéristiques d’une base de données transactionnelle sont les suivantes :

Performance orientée vers de nombreuses opérations rapides : l’objectif est que les transactions effectuées par les utilisateurs soient réalisées le plus rapidement possible. En règle générale, les bases de données transactionnelles doivent être capables d’effectuer de nombreuses opérations à la fois.
Disponibilité : la base de données doit être disponible le plus longtemps possible. Une disponibilité de 100 % du temps n’est pas réaliste, mais plus on se rapproche de cette valeur, plus notre base de données s’améliore en termes de disponibilité.
Concurrence : l’objectif principal de ce type de base de données, comme son nom l’indique, est de permettre d’effectuer un grand nombre de transactions en même temps. Pour cela, il est nécessaire d’optimiser le contrôle de la concurrence, c’est-à-dire de garantir que différents utilisateurs qui effectuent des opérations sur la base de données en même temps puissent les effectuer de manière sûre et efficace.

2. Entrepôts de données (Data Warehouses)

Les entrepôts de données, ou Data Warehouses en anglais, sont des bases de données d’une taille considérablement plus importante par rapport aux bases de données transactionnelles. Ses performances sont inférieures à celles d’une base de données transactionnelle, mais le nombre d’utilisateurs qui l’utilisent est beaucoup plus réduit.

Par exemple, une base de données de type entrepôt peut être responsable du stockage des données archivées d’une autre base de données en production. De cette façon, la base de données principale ne stockerait que les données de l’année en cours, tandis que l’entrepôt de données contiendrait les données de toutes les années précédentes.

Les principales caractéristiques de ce type de base de données sont les suivantes :

Grand volume de données : les entrepôts de données, par définition, sont conçus pour stocker de grandes quantités de données. Contrairement aux bases de données transactionnelles, les entrepôts de données n’ont pas besoin de répondre à un grand nombre d’utilisateurs effectuant des transactions en même temps, les performances ne sont donc pas une nécessité. En revanche, ce qui est une nécessité, c’est que l’entrepôt de données contienne toutes les informations accessibles.
Peu d’opérations lentes : contrairement à ce que nous avons vu avec les bases de données transactionnelles, dans les entrepôts de données, nous donnons la priorité à l’exécution d’un nombre réduit d’opérations qui prennent un temps beaucoup plus...

Les rôles de la science des données

La science des données est un facteur très important lors de la création d’un système d’information. On peut avoir une grande diversité de systèmes : un système informatique d’hôpital, une bibliothèque, le système informatique pour la gestion d’un aéroport... Les éléments peuvent être plus ou moins divers, mais à quelques exceptions près, il y a un élément qui sera toujours en commun : la présence des données.

L’étude de ces données est précisément l’objectif de la science des données. Il s’agit de l’ensemble des techniques, stratégies, acteurs, méthodes... qui ont été créés et peaufinés au fil des années pour pouvoir gérer et exploiter ces données en fonction des besoins des utilisateurs.

En premier point, les rôles suivants sont directement liés aux bases de données :

analyste de données ;
ingénieur de données ;
architecte de données ;
scientifique des données ;
administrateur de base de données ;
opérateur de base de données ;
développeur de base de données.

En deuxième point, les rôles suivants nécessitent d’avoir des connaissances sur les bases de données sans que ce soit leur rôle principal, on pourrait donc dire qu’ils sont indirectement liés :

développeur d’applications ;
chef de projet ;
chef d’entreprise ;
directeur des services informatiques.

Nous verrons en détail chacun de ces rôles. Gardez à l’esprit que ce ne sont que quelques exemples pour avoir une idée de la diversité des rôles qui peuvent être joués en matière de science des données. Ce n’est pas une liste exhaustive, il y en aura peut-être d’autres et l’utilisation de nouvelles méthodes et technologies fera sûrement apparaître de nouveaux rôles dans le futur.

1. Analyste de données

Le rôle de l’analyste de données, comme son nom l’indique, est d’analyser un ensemble de données. Cet ensemble de données peut appartenir à un Datamart, comme nous l’avons vu précédemment, dans le cas des grandes organisations qui ont prévu ce type d’architecture.

Pour les structures plus petites, l’analyste de données devra extraire ses propres données de la base de données de production afin de travailler avec celles-ci.

L’analyste de données n’a pas besoin d’avoir un profil technique, mais son travail consistera à analyser les données préparées correspondant à un domaine spécifique, qui ne doit pas nécessairement être informatique. Un exemple de cela peut être l’équipe d’analystes de données qui est chargée d’analyser des données météorologiques et de faire des prévisions, qui sera spécialisée dans ce type de données, et dont les compétences seront plus limitées s’ils doivent analyser des données liées à la comptabilité de l’entreprise.

Les objectifs d’un analyste de données pourraient être structurés de la manière suivante :

Extraction de données : l’analyste de données doit être capable d’extraire les données qui l’intéressent, que ce soit de la base de données de production, d’un Datamart, d’un Référentiel de données... La capacité à effectuer cette extraction de données est un élément essentiel de ses missions.

Certaines données doivent être extraites manuellement et d’autres données seront extraites automatiquement. Par exemple, l’analyse de la qualité des données d’une entreprise peut être automatisée dans une certaine mesure en fonction de règles programmées, tandis qu’une fouille plus approfondie peut être nécessaire, via une analyse manuelle, pour analyser les cas non pris en compte automatiquement.

Mise en place d’indicateurs : les indicateurs offrent un élément fondamental puisqu’ils définissent les points à observer dans l’échantillon de données extrait.

Par exemple, si les données extraites correspondent aux ventes réalisées par un magasin, les indicateurs pouvant être établis peuvent être : le nombre d’articles vendus par mois, le prix moyen des produits vendus par chaque vendeur, l’écart par rapport au mois précédent.

Ces indicateurs sont ce qui convertira une masse de données en informations de qualité. Comme dans le cas de l’extraction de données, les indicateurs peuvent être...

Introduction