Introduction à la Régression Linéaire et Machine Learning
Introduction aux Types d'Apprentissage Automatique
- On distingue trois categories principales dans le domaine de l'apprentissage automatique (Machine Learning) :
- Apprentissage supervise :
- Principe : On dispose de donnees pour lesquelles l'etiquette (ou label) associee est dej a connue.
- Objectif : Creer un mod ele capable de predire l'etiquette pour de nouvelles donnees non etiquetees.
- Exemple 1 (Classification de spams) : Les donnees sont les contenus d'emails et l'etiquette est "spam" ou "nonspam". Le programme apprend a classer tout nouvel email entrant.
- Exemple 2 (Large Language Model - LLM) : Les donnees sont constituees de textes. La t ache consiste a predire le prochain mot d'un texte (le mot suivant fait office d'etiquette).
- Apprentissage non supervise :
- Principe : On poss ede des donnees sans aucune etiquette associee.
- Objectif : Identifier la structure sous-jacente des donnees ou les organiser en groupes similaires (clustering).
- Exemple : Classer les utilisateurs d'un site de vente en ligne en segments de profils similaires pour determiner quelle publicite est la plus efficace pour chaque groupe.
- Apprentissage par renforcement :
- Principe : L'algorithme apprend de ses propres actions en interagissant avec un environnement.
- Exemple : AlphaGo, qui apprend a jouer au jeu de Go en s'entra enant.
La Regression Lineaire : Concepts et Definitions Generales
- T ache de regression vs. Classification :
- La regression cherche a predire des valeurs continues (exemple : un prix en euros).
- La classification cherche a predire des valeurs discr etes (exemple : "spam" ou "nonspam").
- Structure des donnees d'entra inement :
- Une donnee d'entra inement est un couple (x,y).
- x represente la donnee (vecteur d'attributs).
- y represente son label (la verite terrain).
- y^ designe la prediction faite par le mod ele.
- Formalisme mathematique :
- L'ensemble des donnees est note : Data={(x1,y1),(x2,y2),...,(xN,yN)}⊆RD×C.
- D : La dimension des donnees, aussi appelee nombre d'attributs ou features. Chaque attribut correspond a une dimension.
- N : Le nombre total de donnees dans l'ensemble d'entra inement.
- C : L'espace des labels. Pour une regression, C=R. Pour une classification, C est un ensemble fini de classes.
- X : Matrice des donnees de dimension (N,D).
- Y : Vecteur des labels de dimension (N,1).
- xn,d : Valeur de la feature d pour la donnee n.
- Exemples d'application :
- Immobilier : Pour predire le prix d'une maison, on utilise des features comme la surface en m2 (D=1). Si l'on ajoute le quartier et le nombre de pi eces, la dimension devient D=3.
- Classification d'images (Chat/Chien) : Il s'agit d'une t ache supervisee. La dimension D correspond au nombre de pixels de chaque image (en noir et blanc). N est le nombre total d'images etiquetees.
Modelisation de la Regression Lineaire
- Objectif central : Trouver une fonction de prediction h telle que h(x) soit le plus proche possible du label reel y.
- Mod ele de regression lineaire :
- On suppose une relation lineaire entre les features x et les labels y.
- Cas D=1 (droite) : fθ(x)=θ0+θ1x.
- Cas general (hyperplan) : fθ(x)=θ0+∑i=1Dθixi.
- Param etres : θ=(θ0,θ1,...,θD) sont les param etres que le mod ele doit apprendre.
- Fonction de perte (Loss Function) :
- Elle mesure l'ecart entre les predictions y^n=fθ(xn) et les vraies valeurs yn.
- La methode utilisee ici est celle des moindres carres (Least Squared Error) :
- L(θ,X,Y)=N1∑n=1N(fθ(xn)−yn)2=N1∑n=1N(y^n−yn)2
- Optimisation :
- On cherche a minimiser cette perte en ajustant θ, tandis que les donnees (X,Y) restent fixes.
- La valeur optimale est notee : θ∗=argminθ(L(θ,X,Y))
- En regression lineaire, θ∗ peut etre calcule analytiquement de mani ere exacte. Pour des mod eles complexes, on utilise une methode approchee comme la descente de gradient.
La Methode de Descente de Gradient
- Definition : C'est une methode d'optimisation numerique iterative permettant de trouver un minimum (local) d'une fonction objectif (la loss).
- Formule de mise a jour :
- θ←θ−η⋅∇θL(θ,X,Y)
- ∇θL est le gradient de la fonction de perte par rapport a θ.
- η est le pas d'iteration (ou pas d'apprentissage).
- Calcul du gradient pour la regression lineaire :
- En utilisant la derivee de la forme (u2)′=2⋅u′⋅u :
- Pour i=0 (pentes) : ∂θi∂L=N1∑n=1N2⋅xn,i(y^n−yn)
- Pour i=0 (ordonnee a l'origine) : ∂θ0∂L=N1∑n=1N2(y^n−yn)
- Forme vectorisee du gradient :
- ∇θL=N2∑n=1Nxn(y^n−yn) en definissant xn=(1,xn,1,...,xn,D).
- De mani ere compacte : ∇θL=N2X⊤(Xθ−y)
- Note sur l'intercept : L'ajout d'une valeur 1 systematique au vecteur de donnees est une pratique repandue car elle simplifie l'optimisation en incluant directement le param etre θ0 ("l'intercept") dans le calcul matriciel.
Gestion du Pas d'Apprentissage (Learning Rate)
- Impact de la valeur de η :
- Si η est trop grand : Les ajustements de θ sont trop brutaux (sauts importants), ce qui emp eche la convergence vers le minimum.
- Si η est trop faible : La vitesse de convergence est excessivement lente.
- Strategies et evolution :
- Approche historique (heuristiques manuelles) : On pouvait choisir un pas decroissant, par exemple η=tC, o u C est une constante et t le numero de l'iteration.
- Algorithmes modernes : Les methodes d'optimisation sont aujourd'hui plus sophistiquees.
- Adagrad : Une methode tr es populaire.
- Adam : La methode la plus couramment utilisee a l'heure actuelle.