Glossaire du NLP

Introduction

Le domaine du NLP, comme souvent dans un sous-domaine de l’informatique, brille par une grande variété de terminologies et d’acronymes. Le but est ici de regrouper les principales définitions, sous forme de glossaire, ou de pense-bête.

L’idée a été de définir toutes les notions utilisées ou mentionnées dans le présent ouvrage, puis d’ajouter quelques définitions pouvant s’avérer utiles dans un contexte NLP.

Analyse de sentiments : processus d’identification et de catégorisation des opinions exprimées dans un texte pour déterminer si l’attitude de l’auteur est positive, négative ou neutre.

Apprentissage automatique (Machine Learning) : domaine de l’IA où les algorithmes améliorent leur performance à exécuter des tâches en apprenant à partir de données.

Apprentissage non supervisé : type d’apprentissage automatique où les modèles apprennent à partir de données non étiquetées.

Apprentissage profond (Deep Learning) : sous-ensemble de l’apprentissage automatique utilisant des réseaux de neurones à plusieurs couches pour apprendre à partir de grandes quantités de données.

Apprentissage supervisé : type d’apprentissage automatique où les modèles apprennent à partir de données étiquetées.

Adaptive Boosting (AdaBoost) : technique d’apprentissage automatique qui combine plusieurs modèles faibles pour créer un modèle robuste.

Algorithme de décision : processus algorithmique utilisé pour prendre des décisions basées sur les données, souvent utilisé en classification.

Analyse sémantique : processus d’interprétation et de compréhension du sens et de la signification des mots et des phrases dans un texte.

Arbre de décision : modèle prédictif sous forme d’arbre graphique, utilisé pour la prise de décision et la classification.

Bag of words (sac de mots) : modèle simplifié représentant un texte par la fréquence de chaque mot, sans considérer l’ordre ou la structure grammaticale.

BERT (Bidirectional Encoder Representations from Transformers) : technique de modélisation de langage basée sur les transformers, conçue pour comprendre le contexte des mots dans une phrase.

Bigramme : séquence de deux éléments, tels que des mots ou des phonèmes, dans un texte.

Boosting : méthode d’apprentissage ensembliste qui combine plusieurs modèles faibles pour améliorer la précision des prédictions.

CBOW (Continuous Bag of Words) : modèle Word2Vec où le but est de prédire un mot à partir de son contexte.

Chaîne de Markov : modèle mathématique décrivant un système qui change d’état de manière probabiliste.

Chatbot : programme informatique capable de simuler une conversation avec des utilisateurs humains.

ChatGPT : modèle de traitement du langage basé sur GPT, développé par OpenAI, conçu pour générer des réponses textuelles dans un cadre de chat.

Classification de textes : tâche de NLP consistant à assigner une ou plusieurs catégories à un texte en fonction de son contenu.

CNN (Convolutional Neural Network) : type de réseau de neurones utilisé principalement dans le traitement d’images.

Compréhension des énoncés implicites : capacité à comprendre des informations non explicitement mentionnées dans un texte.

Correction de textes : processus de détection et de correction d’erreurs dans des textes écrits.

Clustering hiérarchique : technique de regroupement de données basée sur la création d’une hiérarchie de clusters.

Descente de gradient : algorithme d’optimisation utilisé pour minimiser une fonction en se déplaçant graduellement vers le minimum.

Distance de Levenshtein : mesure de la différence entre deux séquences en comptant le nombre minimal de modifications nécessaires pour changer une séquence en l’autre.

Distance de Damerau-Levenshtein : variante de la distance de Levenshtein, incluant les transpositions de caractères adjacents.

Entraînement du modèle : processus d’apprentissage d’un modèle de Machine Learning à partir de données.

Évaluation du modèle : processus d’évaluation des performances d’un modèle de Machine Learning, souvent à l’aide de métriques spécifiques.

Extraction d’informations : processus d’identification automatique de structures et de motifs importants dans des documents textuels.

Document Embedding : technique de représentation de documents entiers sous forme de vecteurs.

Forêt aléatoire (Random Forest) : technique d’apprentissage ensembliste utilisant de multiples arbres de décision pour améliorer la fiabilité des prédictions.

F-Score : mesure qui combine la précision et le rappel (recall) pour évaluer la précision d’un modèle.

Feature : variable ou attribut utilisé dans la création de modèles de Machine Learning.

Gensim : bibliothèque Python open source pour la modélisation des sujets et la similarité des documents, utilisant des techniques de NLP et de modélisation de topics.

Génération de texte : technique de NLP permettant de créer automatiquement du texte cohérent et pertinent.

GloVe (Global Vectors for Word Representation) : modèle de représentation vectorielle des mots qui capture des informations globales sur les statistiques des mots dans un corpus.

GRU (Gated Recurrent Unit) : variante simplifiée de LSTM, utilisée dans les modèles de séquences.

GPT (Generative Pre-trained Transformer) : famille de modèles d’apprentissage profond développée par OpenAI, spécialisée dans la compréhension et la génération de texte.

Hyperparamètre : paramètre de configuration externe à un modèle de Machine Learning, ajusté pour améliorer les performances du modèle.

IA (intelligence artificielle) : discipline scientifique concernant les algorithmes qui permettent aux machines de réaliser des tâches qui nécessiteraient une intelligence humaine.

Index Inverse : structure de données utilisée pour stocker une association entre des mots et leur emplacement dans un ou plusieurs documents.

KMeans : algorithme de regroupement non supervisé qui regroupe les données en un nombre prédéterminé de clusters.

K-Nearest Neighbors (KNN) : algorithme de classification basé sur la proximité des données d’entrée avec les exemples de formation.

LDA (Latent Dirichlet Allocation) : modèle de topic modeling pour découvrir les sujets cachés dans un ensemble de documents.

Lemmatisation : processus de réduction des mots à leur forme de dictionnaire ou lemme.

Lemme : forme de base ou de dictionnaire d’un mot, obtenue par lemmatisation.

Lexème : unité de base de la langue, représentant un ensemble de formes grammaticales d’un même mot.

Linguistique : science étudiant le langage humain, y compris la structure, le sens et le contexte.

LLM (Large Language Model) : modèle de traitement de langage naturel...