Les Lexiques des termes clés des Experts en Data Science

Les experts de la Data Science ne peuvent pas ignorer ces termes clés!

Plusieurs lexiques sur le jargon que les data analysts et autres experts du domaine de la science de données utilisent quotidiennement sont disponibles. Citons, par exemple :

« Tout le lexique & jargon Data dont vous avez besoin » , « Le Lexique de Data Analytics Post » et

« Lexique de la Data Science et de l’analytique des données » de Alteryx.

Le dernier est celui que vient de publier MonCoachData le 1^er Août 2023. Nous reproduisons ci-dessous ce lexique qui reprend pas mal de termes que les statisticiens et prévisionnistes utilisent couramment :

· A

o Accuracy : Exactitude ou précision – Mesure des prédictions correctes divisée par le total des prédictions.

o Area Under Curve : Aire sous la courbe – Métrique représentant l’aire sous la courbe ROC (Receiver Operating Characteristic), utilisée pour évaluer les modèles de classification.

o ARIMA : Moyenne mobile intégrée autorégressive (AutoRegressive Integrated Moving Average), une méthode de prévision des séries temporelles.

· B

o Bias : Biais – La différence entre la valeur réelle et la valeur prédite dans un modèle statistique.

o Baye Theorem : Théorème de Baye – Formule de probabilité qui calcule la probabilité d’un événement sur la base de connaissances préalables.

o Binomial Distribution : Distribution binomiale – Distribution de probabilité qui modélise le nombre de succès dans un nombre fixe d’essais indépendants de Bernoulli.

· C

o Clustering : Regroupement (en clusters) de points de données sur la base de similitudes.

o Confusion Matrix : Matrice de confusion – Tableau utilisé pour évaluer les performances d’un modèle de classification.

o Cross-validation : Validation croisée – Technique permettant d’évaluer les performances d’un modèle en divisant les données en sous-ensembles pour l’entraînement et le test du modèle.

· D

o Decision Trees : Arbres de décision – Modèle arborescent utilisé pour les tâches de classification et de régression.

o Dimensionality Reduction : Réduction de la dimensionnalité – processus de réduction du nombre de caractéristiques/features dans un ensemble de données tout en préservant les informations importantes.

o Discriminative Models : Modèles discriminants – modèles qui apprennent la frontière entre les différentes classes.

· E

o Ensemble Learning : Apprentissage d’ensemble – Technique qui combine plusieurs modèles pour améliorer la performance prédictive.

o EDA (Exploratory Data Analysis) : Analyse exploratoire des données – Processus d’analyse et de visualisation des données afin de comprendre leurs modèles et leurs propriétés.

o Entropy : Entropie – Mesure de l’incertitude ou du caractère aléatoire de l’information.

· F

o Feature Engineering : Processus de création de nouvelles caractéristiques/features à partir de données existantes afin d’améliorer les performances du modèle.

o F-score : Mesure qui équilibre la précision et le rappel pour la classification binaire.

o Feature Extraction : Extraction de caractéristiques – Processus d’extraction automatique de caractéristiques/features significatives à partir de données.

· G

o Gradient Descent : Descente de gradient – Algorithme d’optimisation utilisé pour minimiser une fonction en ajustant les paramètres de manière itérative.

o Gaussian Distribution : Distribution gaussienne – Distribution normale avec une fonction de densité de probabilité en forme de cloche.

o Gradient Boosting : Renforcement du gradient : Méthode d’apprentissage d’ensemble qui construit plusieurs apprenants faibles de manière séquentielle.

· H

o Hypothesis : Hypothèse – Déclaration ou hypothèse testable dans le cadre d’une inférence statistique.

o Hierarchical Clustering : Regroupement hiérarchique – Méthode de regroupement qui organise les données en une structure arborescente.

o Heteroscedasticity : Hétéroscédasticité – Variance inégale des erreurs dans un modèle de régression.

· I

o Information Gain : Gain d’information – Mesure utilisée dans les arbres de décision pour déterminer l’importance d’une caractéristique/feature.

o Independent Variable : Variable indépendante – Variable qui est manipulée dans une expérience afin d’observer son effet sur la variable dépendante.

o Imbalance : Déséquilibre – Situation dans laquelle la répartition des classes dans un ensemble de données n’est pas égale.

· J

o Jupyter : Environnement informatique interactif utilisé pour l’analyse de données et le machine learning.

o Joint Probability : Probabilité conjointe – Probabilité que deux ou plusieurs événements se produisent ensemble.

o Jaccard Index : Indice de Jaccard – Mesure de la similarité entre deux ensembles.

· K

o Kernel Density Estimation : Estimation de la densité du noyau – Méthode non paramétrique d’estimation de la fonction de densité de probabilité d’une variable aléatoire continue.

o KS Test (Kolmogorov-Smirnov Test) : Test non paramétrique permettant de comparer deux distributions de probabilité.

o KMeans Clustering : Regroupement KMeans – Répartition des données en K groupes sur la base de la similarité.

· L

o Likelihood : Vraisemblance – Chance d’observer les données compte tenu d’un modèle spécifique.

o Linear Regression : Régression linéaire – Méthode statistique permettant de modéliser la relation entre les variables dépendantes et indépendantes.

o L1/L2 Regularization : Régularisation L1/L2 – Techniques visant à empêcher l’ajustement excessif (overfitting) en ajoutant des termes de pénalité à la fonction de perte du modèle.

· M

o Maximum Likelihood Estimation : Estimation du maximum de vraisemblance – Méthode d’estimation des paramètres d’un modèle statistique.

o Multicollinearity : Multicollinéarité – Situation dans laquelle deux variables indépendantes ou plus sont fortement corrélées dans un modèle de régression.

o Mutual Information : Information mutuelle – Mesure de la quantité d’information partagée entre deux variables.

· N

o Naive Bayes : Classificateur probabiliste basé sur le théorème de Bayes avec l’hypothèse de l’indépendance des caractéristiques/features.

o Normalization : Mise à l’échelle des données pour obtenir une moyenne de 0 et un écart-type de 1.

o Null Hypothesis : Hypothèse nulle – Hypothèse d’absence de différence ou d’effet significatif dans les tests statistiques.

· O

o Overfitting : Surapprentissage – Lorsqu’un modèle donne de bons résultats sur des données d’apprentissage, mais de mauvais résultats sur de nouvelles données inconnues.

o Outliers : Valeurs aberrantes – Points de données qui diffèrent de manière significative des autres points de données d’un ensemble de données.

o One-hot encoding : Encodage one-hot – Processus de conversion des variables catégorielles en vecteurs binaires.

· P

o PCA (Principal Component Analysis) : ACP (Analyse en Composantes Principales) – Technique de réduction de la dimensionnalité pour transformer les données en composantes orthogonales.

o Precision : Proportion de vraies prédictions positives parmi toutes les prédictions positives d’un modèle de classification.

o p-value : Probabilité d’observer un résultat au moins aussi extrême que celui obtenu si l’hypothèse nulle est vraie.

· Q

o QQ-plot (Quantile-Quantile Plot) : Outil graphique permettant de comparer la distribution de deux ensembles de données.

o QR decomposition : Factorisation d’une matrice en une matrice orthogonale et une matrice triangulaire supérieure.

· R

o Random Forest : Méthode d’apprentissage d’ensemble utilisant plusieurs arbres de décision pour faire des prédictions.

o Recall : Rappel – Proportion de vraies prédictions positives parmi toutes les instances positives réelles d’un modèle de classification.

o ROC Curve (Receiver Operating Characteristic Curve) : Graphique montrant la performance d’un classificateur binaire à différents seuils.

· S

o SVM (Support Vector Machine) : Algorithme d’apprentissage supervisé utilisé pour la classification et la régression.

o Standardisation : Mise à l’échelle des données pour obtenir une moyenne de 0 et un écart-type de 1.

o Sampling : Échantillonnage – Processus de sélection d’un sous-ensemble de points de données à partir d’un ensemble de données plus large.

· T

o t-SNE (t-Distributed Stochastic Neighbor Embedding) : Technique de réduction de la dimensionnalité permettant de visualiser des données de haute dimension en dimensions inférieures.

o t-distribution : Distribution de probabilité utilisée dans les tests d’hypothèse lorsque la taille de l’échantillon est faible.

o Type I/II Error : L’erreur de type I est un faux positif et l’erreur de type II est un faux négatif dans les tests d’hypothèse.

· U

o Underfitting : Sous-apprentissage – Lorsqu’un modèle est trop simple pour capturer les modèles sous-jacents des données.

o UMAP (Uniform Manifold Approximation and Projection) : Technique de réduction de la dimensionnalité pour la visualisation de données à haute dimension.

o Uniform Distribution : Distribution uniforme – Distribution de probabilités où tous les résultats sont également probables.

· V

o Variance : Mesure de la dispersion des points de données autour de la moyenne.

o Validation Curve : Courbe de validation – Graphique montrant l’évolution des performances du modèle en fonction des différentes valeurs des hyperparamètres.

o Vanishing Gradient : Problème rencontré dans les réseaux de neurones profonds lorsque les gradients deviennent très faibles au cours de l’entraînement.

· W

o Word embedding : Représentation des mots sous forme de vecteurs denses dans le traitement du langage naturel.

o Word cloud : Nuage de mots – Visualisation de données textuelles où la fréquence des mots est représentée par la taille du mot.

o Weights : Poids – Paramètres appris par un modèle de machine learning au cours de l’entraînement.

· X

o XGBoost : Extreme Gradient Boosting, une bibliothèque populaire de renforcement du gradient.

o XLNet : Pré-entraînement autorégressif généralisé de Transformers, un modèle linguistique.

· Y

o YOLO (You Only Look Once) : Système de détection d’objets en temps réel.

o Yellowbrick : Bibliothèque Python pour les outils de visualisation et de diagnostic de machine learning.

· Z

o Z-score : Valeur normalisée représentant le nombre d’écarts types d’un point de données par rapport à la moyenne.

o Z-test : Test statistique utilisé pour comparer la moyenne d’un échantillon à la moyenne d’une population connue.

o Zero-shot learning : Méthode de Machine Learning permettant à un modèle de reconnaître de nouvelles classes sans avoir vu d’exemples explicites pendant l’entraînement.