Introduction

Vous avez en main la quatrième édition de notre ouvrage, complètement remaniée.

Nous avons conçu cette édition pour vous donner l’opportunité d’appréhender les concepts suivants de façon opérationnelle.

Relations simplifiées entre les items clés que nous aborderons

Contenu de l’ouvrage

Nous consacrons un quart de l’ouvrage à R, mais d’une façon intimement liée à une initiation très complète aux pratiques les plus courantes en Data Science et Machine Learning.

Nous avons pris soin de rendre cette édition opérationnelle et utile pour une personne désirant ne pas développer en R, typiquement un chef de projet fonctionnel ou au contraire un développeur Python. En effet, seuls 25 % des informations présentes dans cet ouvrage sont spécifiques à la pratique du développement en langage R.

Il nous a fallu renoncer à certaines caractéristiques spécifiques du langage R pour introduire des informations beaucoup plus rares à trouver ou difficiles à assimiler ayant trait au Deep Learning et aux modèles d’intelligence artificielle modernes comme les LLM (Large Language Model, comme ChatGPT).

Dans cette édition, les aspects mathématiques ne sont pas éludés, mais nous avons tâché de résister au jargon mathématique inutile au quotidien. L’idée était de vous permettre de déchiffrer les nombreux papiers émis par les chercheurs sans pour autant vous proposer l’assimilation en profondeur des mathématiques qui fondent notre discipline.

Notez, qu’après la lecture des chapitres Deep Learning avec PyTorch ou Keras/TensorFlow et Mathématiques pour l’IA, vous serez en mesure d’effectuer la plupart des manipulations de tenseurs et de calculs différentiels typiques de la Data Science, ce qui n’est pas la compétence la plus banale !

Cela correspond à plus de cent nouvelles pages qui, en soi, pourraient, pour certains lecteurs, justifier à elles seules l’acquisition de cet ouvrage.

La deuxième moitié de l’ouvrage s’attache donc à explorer pas à pas toutes les briques qui mènent aux modèles LLM (chapitre LLM, Transformers, GPT, RAG et Agents), incluant les réseaux neuronaux (NN : chapitre Réseaux neuronaux et Gradient Boosting), les réseaux neuronaux convolutifs (chapitre Heuristiques clés : logique floue - swarm - CNN), mais sans négliger l’usage actuel des autres techniques : la Data Science et l’IA opérationnelle ne se réduisent pas à l’IA générative !

Vous y trouverez des savoir-faire indispensables pour comprendre les structures, manipuler et...

Codes et solutions techniques présentées

Nous restons convaincus que le choix R est plus abordable pour les non-informaticiens et pour les statisticiens que le choix Python.

Les développeurs Python pourront facilement reproduire les codes de l’ouvrage. En effet, nous avons pris soin de sélectionner certains packages open sources disponibles dans les deux langages et avons rédigé un chapitre dédié aux différences et à la cohabitation entre R et Python, dont les syntaxes sont souvent similaires (chapitre R et Python).

La liste non exhaustive de ces packages communs aux deux langages comprend :

(py)torch, keras, tensorflow (chapitre Deep Learning avec PyTorch ou Keras/TensorFlow) : les trois frameworks phares de l’IA, permettant d’implémenter la gestion d’immenses tenseurs, des calculs d’optimisation extrêmes sur des architectures parallèles comprenant de nombreuses machines et GPU (comme les cartes Nvidia qui équipent les PC, mais aussi les super-calculateurs) ;
ggplot2 (chapitre Machine Learning) : un des packages graphiques les plus puissants, qui s’appuie sur une grammaire graphique cohérente ;
shiny (chapitre Business intelligence avec Shiny) : un framework permettant de créer facilement des applications web bien structurées et des tableaux de bord (dashboard), sans connaissance du développement web, mais dans le respect des meilleures pratiques afin de garantir le passage à l’échelle de vos applications (be scalable) ;
nltk (chapitre LLM, Transformers, GPT, RAG et Agents) : la référence en matière de traitement du langage naturel (NLP : Natural Language Processing) ;
igraph (chapitre Knowledge Graphs) : la référence en matière de manipulations simples de graphes.

RStudio, l’interface de travail (IDE - Integrated Development Environment) que nous vous présentons, n’est absolument pas obligatoire pour mettre au point les codes de l’ouvrage. Contrairement à ce que pourrait laisser penser son nom, on peut y développer en R, mais aussi en Python, Javascript, c, c++, shell, html...

Introduction

Introduction

Contenu de l’ouvrage

Codes et solutions techniques présentées

Pour aller plus loin