1/14
Cette série de flashcards couvre les fondamentaux du machine learning, les types d'apprentissage, ainsi que les principes mathématiques de la régression linéaire et de la descente de gradient.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Apprentissage supervisé
Type d'apprentissage où l'on possède des données pour lesquelles on connaît l'étiquette (label) associée, comme dans le cas de la détection de spams ou des Large Language Models.
Apprentissage non supervisé
Type d'apprentissage sur des données sans étiquette associée visant à trouver une structure ou à classer les données en groupes similaires, par exemple pour le ciblage publicitaire.
Apprentissage par renforcement
Type d'apprentissage où l'algorithme apprend de ses propres actions, illustré par l'exemple de AlphaGo.
Tâche de régression
Tâche consistant à prédire des valeurs continues, comme le prix d'une maison en euros.
Tâche de classification
Tâche consistant à prédire des valeurs discrètes, par exemple pour distinguer un chat d'un chien ou un spam d'un non-spam.
Attribut (ou feature)
Représente une dimension des données, notée D. Par exemple, la surface d'un logement ou le nombre de pièces.
Label (y)
L'étiquette associée à une donnée d'entraînement x, représentant la valeur réelle que le modèle cherche à prédire.
Fonction loss
Fonction qui mesure l'écart entre les prédictions yˆ et les labels réels y; le but est de trouver une fonction h qui minimise cette erreur.
Moindres carrés (Least Squared Error)
Méthode de calcul de la perte utilisée en régression, définie par la formule L(θ,X,Y)=N1∑n=1N(fθ(xn)−yn)2.
Modèle de régression linéaire (D=1)
Modélisation des données par l'équation d'une droite de la forme fθ(x)=θ0+θ1x.
Modèle de régression linéaire (cas général)
Modélisation pour un vecteur x de dimension quelconque utilisant la formule fθ(x)=θ0+∑i=1Dθixi.
Descente de gradient
Méthode d'optimisation numérique pour chercher un minimum local d'une fonction en mettant à jour les paramètres selon la règle θ←θ−η⋅∇θL(θ,X,Y).
Pas d'apprentissage (η)
Paramètre déterminant la taille des sauts dans la descente de gradient; une valeur trop élevée peut empêcher la convergence, tandis qu'une valeur trop faible ralentit le processus.
Adam
Méthode d'optimisation (optimizer) considérée aujourd'hui comme la plus utilisée, faisant suite à d'autres méthodes comme Adagrad.
Intercept
Le terme θ0 dans le modèle linéaire, souvent optimisé en ajoutant une valeur constante de 1 au vecteur de données xn.