Glossaire du NLP
Introduction
Le domaine du NLP, comme souvent dans un sous-domaine de l’informatique, brille par une grande variété de terminologies et d’acronymes. Le but est ici de regrouper les principales définitions, sous forme de glossaire, ou de pense-bête.
L’idée a été de définir toutes les notions utilisées ou mentionnées dans le présent ouvrage, puis d’ajouter quelques définitions pouvant s’avérer utiles dans un contexte NLP.
A
Analyse de sentiments : processus d’identification et de catégorisation des opinions exprimées dans un texte pour déterminer si l’attitude de l’auteur est positive, négative ou neutre.
Apprentissage automatique (Machine Learning) : domaine de l’IA où les algorithmes améliorent leur performance à exécuter des tâches en apprenant à partir de données.
Apprentissage non supervisé : type d’apprentissage automatique où les modèles apprennent à partir de données non étiquetées.
Apprentissage profond (Deep Learning) : sous-ensemble de l’apprentissage automatique utilisant des réseaux de neurones à plusieurs couches pour apprendre à partir de grandes quantités de données.
Apprentissage supervisé : type d’apprentissage automatique où les modèles apprennent à partir de données étiquetées.
Adaptive Boosting (AdaBoost) : technique d’apprentissage automatique qui combine plusieurs modèles faibles pour créer un modèle robuste.
Algorithme de décision : processus algorithmique utilisé pour prendre des décisions basées sur les données, souvent utilisé en classification.
Analyse sémantique : processus d’interprétation et de compréhension du sens et de la signification des mots et des phrases dans un texte.
Arbre de décision : modèle prédictif sous forme d’arbre graphique, utilisé pour la prise de décision et la classification.
B
Bag of words (sac de mots) : modèle simplifié représentant un texte par la fréquence de chaque mot, sans considérer l’ordre ou la structure grammaticale.
BERT (Bidirectional Encoder Representations from Transformers) : technique de modélisation de langage basée sur les transformers, conçue pour comprendre le contexte des mots dans une phrase.
Bigramme : séquence de deux éléments, tels que des mots ou des phonèmes, dans un texte.
Boosting : méthode d’apprentissage ensembliste qui combine plusieurs modèles faibles pour améliorer la précision des prédictions.
C
CBOW (Continuous Bag of Words) : modèle Word2Vec où le but est de prédire un mot à partir de son contexte.
Chaîne de Markov : modèle mathématique décrivant un système qui change d’état de manière probabiliste.
Chatbot : programme informatique capable de simuler une conversation avec des utilisateurs humains.
ChatGPT : modèle de traitement du langage basé sur GPT, développé par OpenAI, conçu pour générer des réponses textuelles dans un cadre de chat.
Classification de textes : tâche de NLP consistant à assigner une ou plusieurs catégories à un texte en fonction de son contenu.
CNN (Convolutional Neural Network) : type de réseau de neurones utilisé principalement dans le traitement d’images.
Compréhension des énoncés implicites : capacité à comprendre des informations non explicitement mentionnées dans un texte.
Correction de textes : processus de détection et de correction d’erreurs dans des textes écrits.
Clustering hiérarchique : technique de regroupement de données basée sur la création d’une hiérarchie de clusters.
D
Descente de gradient : algorithme d’optimisation utilisé pour minimiser une fonction en se déplaçant graduellement vers le minimum.
Distance de Levenshtein : mesure de la différence entre deux séquences en comptant le nombre minimal de modifications nécessaires pour changer une séquence en l’autre.
Distance de Damerau-Levenshtein : variante de la distance de Levenshtein, incluant les transpositions de caractères adjacents.
E
Entraînement du modèle : processus d’apprentissage d’un modèle de Machine Learning à partir de données.
Évaluation du modèle : processus d’évaluation des performances d’un modèle de Machine Learning, souvent à l’aide de métriques spécifiques.
Extraction d’informations : processus d’identification automatique de structures et de motifs importants dans des documents textuels.
Document Embedding : technique de représentation de documents entiers sous forme de vecteurs.
F
Forêt aléatoire (Random Forest) : technique d’apprentissage ensembliste utilisant de multiples arbres de décision pour améliorer la fiabilité des prédictions.
F-Score : mesure qui combine la précision et le rappel (recall) pour évaluer la précision d’un modèle.
Feature : variable ou attribut utilisé dans la création de modèles de Machine Learning.
G
Gensim : bibliothèque Python open source pour la modélisation des sujets et la similarité des documents, utilisant des techniques de NLP et de modélisation de topics.
Génération de texte : technique de NLP permettant de créer automatiquement du texte cohérent et pertinent.
GloVe (Global Vectors for Word Representation) : modèle de représentation vectorielle des mots qui capture des informations globales sur les statistiques des mots dans un corpus.
GRU (Gated Recurrent Unit) : variante simplifiée de LSTM, utilisée dans les modèles de séquences.
GPT (Generative Pre-trained Transformer) : famille de modèles d’apprentissage profond développée par OpenAI, spécialisée dans la compréhension et la génération de texte.
H
Hyperparamètre : paramètre de configuration externe à un modèle de Machine Learning, ajusté pour améliorer les performances du modèle.
I
IA (intelligence artificielle) : discipline scientifique concernant les algorithmes qui permettent aux machines de réaliser des tâches qui nécessiteraient une intelligence humaine.
Index Inverse : structure de données utilisée pour stocker une association entre des mots et leur emplacement dans un ou plusieurs documents.
K
KMeans : algorithme de regroupement non supervisé qui regroupe les données en un nombre prédéterminé de clusters.
K-Nearest Neighbors (KNN) : algorithme de classification basé sur la proximité des données d’entrée avec les exemples de formation.
L
LDA (Latent Dirichlet Allocation) : modèle de topic modeling pour découvrir les sujets cachés dans un ensemble de documents.
Lemmatisation : processus de réduction des mots à leur forme de dictionnaire ou lemme.
Lemme : forme de base ou de dictionnaire d’un mot, obtenue par lemmatisation.
Lexème : unité de base de la langue, représentant un ensemble de formes grammaticales d’un même mot.
Linguistique : science étudiant le langage humain, y compris la structure, le sens et le contexte.
LLM (Large Language Model) : modèle de traitement de langage naturel...