· A o Accuracy : Exactitude ou précision – Mesure des prédictions correctes divisée par le total des prédictions. o Area Under Curve : Aire sous la courbe – Métrique représentant l’aire sous la courbe ROC (Receiver Operating Characteristic), utilisée pour évaluer les modèles de classification. o ARIMA : Moyenne mobile intégrée autorégressive (AutoRegressive Integrated Moving Average), une méthode de prévision des séries temporelles. · B o Bias : Biais – La différence entre la valeur réelle et la valeur prédite dans un modèle statistique. o Baye Theorem : Théorème de Baye – Formule de probabilité qui calcule la probabilité d’un événement sur la base de connaissances préalables. o Binomial Distribution : Distribution binomiale – Distribution de probabilité qui modélise le nombre de succès dans un nombre fixe d’essais indépendants de Bernoulli. · C o Clustering : Regroupement (en clusters) de points de données sur la base de similitudes. o Confusion Matrix : Matrice de confusion – Tableau utilisé pour évaluer les performances d’un modèle de classification. o Cross-validation : Validation croisée – Technique permettant d’évaluer les performances d’un modèle en divisant les données en sous-ensembles pour l’entraînement et le test du modèle. · D o Decision Trees : Arbres de décision – Modèle arborescent utilisé pour les tâches de classification et de régression. o Dimensionality Reduction : Réduction de la dimensionnalité – processus de réduction du nombre de caractéristiques/features dans un ensemble de données tout en préservant les informations importantes. o Discriminative Models : Modèles discriminants – modèles qui apprennent la frontière entre les différentes classes. · E o Ensemble Learning : Apprentissage d’ensemble – Technique qui combine plusieurs modèles pour améliorer la performance prédictive. o EDA (Exploratory Data Analysis) : Analyse exploratoire des données – Processus d’analyse et de visualisation des données afin de comprendre leurs modèles et leurs propriétés. o Entropy : Entropie – Mesure de l’incertitude ou du caractère aléatoire de l’information. · F o Feature Engineering : Processus de création de nouvelles caractéristiques/features à partir de données existantes afin d’améliorer les performances du modèle. o F-score : Mesure qui équilibre la précision et le rappel pour la classification binaire. o Feature Extraction : Extraction de caractéristiques – Processus d’extraction automatique de caractéristiques/features significatives à partir de données. · G o Gradient Descent : Descente de gradient – Algorithme d’optimisation utilisé pour minimiser une fonction en ajustant les paramètres de manière itérative. o Gaussian Distribution : Distribution gaussienne – Distribution normale avec une fonction de densité de probabilité en forme de cloche. o Gradient Boosting : Renforcement du gradient : Méthode d’apprentissage d’ensemble qui construit plusieurs apprenants faibles de manière séquentielle. · H o Hypothesis : Hypothèse – Déclaration ou hypothèse testable dans le cadre d’une inférence statistique. o Hierarchical Clustering : Regroupement hiérarchique – Méthode de regroupement qui organise les données en une structure arborescente. o Heteroscedasticity : Hétéroscédasticité – Variance inégale des erreurs dans un modèle de régression. · I o Information Gain : Gain d’information – Mesure utilisée dans les arbres de décision pour déterminer l’importance d’une caractéristique/feature. o Independent Variable : Variable indépendante – Variable qui est manipulée dans une expérience afin d’observer son effet sur la variable dépendante. o Imbalance : Déséquilibre – Situation dans laquelle la répartition des classes dans un ensemble de données n’est pas égale. · J o Jupyter : Environnement informatique interactif utilisé pour l’analyse de données et le machine learning. o Joint Probability : Probabilité conjointe – Probabilité que deux ou plusieurs événements se produisent ensemble. o Jaccard Index : Indice de Jaccard – Mesure de la similarité entre deux ensembles. · K o Kernel Density Estimation : Estimation de la densité du noyau – Méthode non paramétrique d’estimation de la fonction de densité de probabilité d’une variable aléatoire continue. o KS Test (Kolmogorov-Smirnov Test) : Test non paramétrique permettant de comparer deux distributions de probabilité. o KMeans Clustering : Regroupement KMeans – Répartition des données en K groupes sur la base de la similarité. · L o Likelihood : Vraisemblance – Chance d’observer les données compte tenu d’un modèle spécifique. o Linear Regression : Régression linéaire – Méthode statistique permettant de modéliser la relation entre les variables dépendantes et indépendantes. o L1/L2 Regularization : Régularisation L1/L2 – Techniques visant à empêcher l’ajustement excessif (overfitting) en ajoutant des termes de pénalité à la fonction de perte du modèle. · M o Maximum Likelihood Estimation : Estimation du maximum de vraisemblance – Méthode d’estimation des paramètres d’un modèle statistique. o Multicollinearity : Multicollinéarité – Situation dans laquelle deux variables indépendantes ou plus sont fortement corrélées dans un modèle de régression. o Mutual Information : Information mutuelle – Mesure de la quantité d’information partagée entre deux variables. · N o Naive Bayes : Classificateur probabiliste basé sur le théorème de Bayes avec l’hypothèse de l’indépendance des caractéristiques/features. o Normalization : Mise à l’échelle des données pour obtenir une moyenne de 0 et un écart-type de 1. o Null Hypothesis : Hypothèse nulle – Hypothèse d’absence de différence ou d’effet significatif dans les tests statistiques. · O o Overfitting : Surapprentissage – Lorsqu’un modèle donne de bons résultats sur des données d’apprentissage, mais de mauvais résultats sur de nouvelles données inconnues. o Outliers : Valeurs aberrantes – Points de données qui diffèrent de manière significative des autres points de données d’un ensemble de données. o One-hot encoding : Encodage one-hot – Processus de conversion des variables catégorielles en vecteurs binaires. · P o PCA (Principal Component Analysis) : ACP (Analyse en Composantes Principales) – Technique de réduction de la dimensionnalité pour transformer les données en composantes orthogonales. o Precision : Proportion de vraies prédictions positives parmi toutes les prédictions positives d’un modèle de classification. o p-value : Probabilité d’observer un résultat au moins aussi extrême que celui obtenu si l’hypothèse nulle est vraie. · Q o QQ-plot (Quantile-Quantile Plot) : Outil graphique permettant de comparer la distribution de deux ensembles de données. o QR decomposition : Factorisation d’une matrice en une matrice orthogonale et une matrice triangulaire supérieure. · R o Random Forest : Méthode d’apprentissage d’ensemble utilisant plusieurs arbres de décision pour faire des prédictions. o Recall : Rappel – Proportion de vraies prédictions positives parmi toutes les instances positives réelles d’un modèle de classification. o ROC Curve (Receiver Operating Characteristic Curve) : Graphique montrant la performance d’un classificateur binaire à différents seuils. · S o SVM (Support Vector Machine) : Algorithme d’apprentissage supervisé utilisé pour la classification et la régression. o Standardisation : Mise à l’échelle des données pour obtenir une moyenne de 0 et un écart-type de 1. o Sampling : Échantillonnage – Processus de sélection d’un sous-ensemble de points de données à partir d’un ensemble de données plus large. · T o t-SNE (t-Distributed Stochastic Neighbor Embedding) : Technique de réduction de la dimensionnalité permettant de visualiser des données de haute dimension en dimensions inférieures. o t-distribution : Distribution de probabilité utilisée dans les tests d’hypothèse lorsque la taille de l’échantillon est faible. o Type I/II Error : L’erreur de type I est un faux positif et l’erreur de type II est un faux négatif dans les tests d’hypothèse. · U o Underfitting : Sous-apprentissage – Lorsqu’un modèle est trop simple pour capturer les modèles sous-jacents des données. o UMAP (Uniform Manifold Approximation and Projection) : Technique de réduction de la dimensionnalité pour la visualisation de données à haute dimension. o Uniform Distribution : Distribution uniforme – Distribution de probabilités où tous les résultats sont également probables. · V o Variance : Mesure de la dispersion des points de données autour de la moyenne. o Validation Curve : Courbe de validation – Graphique montrant l’évolution des performances du modèle en fonction des différentes valeurs des hyperparamètres. o Vanishing Gradient : Problème rencontré dans les réseaux de neurones profonds lorsque les gradients deviennent très faibles au cours de l’entraînement. · W o Word embedding : Représentation des mots sous forme de vecteurs denses dans le traitement du langage naturel. o Word cloud : Nuage de mots – Visualisation de données textuelles où la fréquence des mots est représentée par la taille du mot. o Weights : Poids – Paramètres appris par un modèle de machine learning au cours de l’entraînement. · X o XGBoost : Extreme Gradient Boosting, une bibliothèque populaire de renforcement du gradient. o XLNet : Pré-entraînement autorégressif généralisé de Transformers, un modèle linguistique. · Y o YOLO (You Only Look Once) : Système de détection d’objets en temps réel. o Yellowbrick : Bibliothèque Python pour les outils de visualisation et de diagnostic de machine learning. · Z o Z-score : Valeur normalisée représentant le nombre d’écarts types d’un point de données par rapport à la moyenne. o Z-test : Test statistique utilisé pour comparer la moyenne d’un échantillon à la moyenne d’une population connue. o Zero-shot learning : Méthode de Machine Learning permettant à un modèle de reconnaître de nouvelles classes sans avoir vu d’exemples explicites pendant l’entraînement. |