1/56
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Pourquoi utilise-t-on l’analyse en composantes principales (ACP) ?
Elle permet de projeter des données de grande dimension dans un espace de dimension plus faible afin de visualiser et analyser plus facilement les données
Comment représente-t-on les données en analyse en composantes principales (ACP) ?
On représente les données par une matrice X de taille N × p où N est le nombre d’individus et p est le nombre de variables statistiques
Comment définit-on les poids des individus en analyse de données ?
On définit un poids pi ≥ 0 pour chaque individu avec
Σi=1N pi = 1,
et on prend souvent pi = 1/N pour tous les individus ;
Comment définit-on le point moyen (centre de gravité) en analyse de données ?
Le point moyen g est défini par g = (x̄₁, …, x̄ₚ) où chaque coordonnée x̄_k est la moyenne pondérée des valeurs de la variable k : x̄_k = Σ_{i=1}^{N} p_i x_i^k ;
Comment définit-on le point moyen (centre de gravité) en analyse de données ?
Le point moyen g est défini par g = (x̄₁, …, x̄ₚ) où chaque coordonnée x̄k est la moyenne pondérée des valeurs de la variable k : x̄k = Σi=1N pi xik ;
Définition : Que sont les données centrées ?
Les données centrées sont obtenues en soustrayant la moyenne de chaque variable : yik = xik − x̄k ;
en notation matricielle : Y = X − 1 gT ;
Propriété : Comment s’écrit la matrice des données centrées ?
Y = (I − 1T Dp) X
I est la matrice identité,
1 le vecteur de 1 et
Dp la matrice diagonale des poids pi.
Propriété : Comment s’écrit la matrice de variance-covariance ?
V = XT Dp X − g gT.
Définition : Comment définit-on le coefficient de corrélation linéaire entre les variables k et l ?
rkl = σkl / (σk · σl)
Définition : Qu’est-ce que la matrice des données centrées réduites Z ?
Z = (zᵢᵏ) avec zᵢᵏ = (xᵢᵏ − x̄ₖ) / σₖ
Définition : Qu’est-ce que l’inertie totale d’un nuage de points ? (Ig )
Ig = Σi=1N pi (xi − g)T (xi − g) = Σi=1N pi |xi − g|2
Définition : Comment définit-on l’inertie en un point a ?
Ia = Σi=1N pi (xi − a)T (xi − a)
Définition : Quel est l’objectif de l’ACP ?
L’ACP a pour but de déterminer un sous-espace de dimension q dans lequel la projection du nuage de points a une inertie maximale.
Propriété : Relation entre l’inertie en a et l’inertie totale.
Ia = Ig + |g − a|2.
Propriété : Expression de l’inertie totale avec les distances entre individus.
Propriété : Comment s’exprime l’inertie totale au centre de gravité g ?
Ig = tr(V) où tr(V) est la trace de la matrice de variance-covariance V.
Définition : Qu’est-ce que l’espace des variables ? Quel est le produit scalaire associé ?
ℝp est l’espace de représentation des variables.
On y définit le produit scalaire ⟨xk, xl⟩ = (xk)T Dp xl = Σi=1N pi xik xil
Remarque : Que représente la norme d’une variable dans cet espace ?
On a ||xk||2 = σk2 : la norme au carré d’une variable correspond à sa variance.
Interprétation : Que représente le cosinus entre deux variables ?
cos(xk, xl) = ⟨xk, xl⟩ /(||xk|| ||xl||) = σkl/(σk σl) = rkl.
Il correspond au coefficient de corrélation entre les variables k et l.
Définition : Qu’est-ce que l’espace des variables ? Quel est le produit scalaire associé ainsi que la norme ?
ℝp est l’espace de représentation des variables. On y définit le produit scalaire ⟨xᵏ, xˡ⟩ = (xᵏ)ᵀ Dₚ xˡ = Σᵢ₌₁ᴺ pᵢ xᵢᵏ xᵢˡ
Remarque : la norme d’une variable xᵏ dans cet espace est :
‖xᵏ‖ = √(Σᵢ₌₁ᴺ pᵢ (xᵢᵏ)²)
Conséquence : Que représente-t-on dans le cercle des corrélations (espace des variables) ?
Dans l’espace des variables, on représente les variables comme des vecteurs plutôt que comme des points, et on s’intéresse aux angles entre ces vecteurs.
Quelle propriété importante possède la matrice V ?
Elle est symétrique définie positive V = R
Quelle sont Les coordonnées des individus projetés sur la droite de vecteur directeur u = (u1 u2 …. up) pour d = 1 ?
Les coordonnées des individus projetés sur la droite de vecteur directeur u = (u1 u2 …. up) est
c = Xu = Σk=1p xk uk
Quelle est l’inertie des points projetés ? (var(c) = …)
var( c ) = Σk=1p pi ci = cᵀ D c
= uT XT D X u
= uT V u = uT R u
Quelle quantité cherche-t-on à maximiser pour trouver cette direction ?
On cherche u* = argmax ||u|| = 1 uᵀ V u
u = Σk=1p αk vk
Comment s’écrit la quantité uᵀVu dans cette base ?
uᵀVu = (Σk=1p αk vk)T V (Σk=1p αk vk)
= (Σk=1p αk vk)T (Σk=1p αk λk vk)
= Σk=1p αk2 λk ||vk||2
= Σk=1p αk2 λk
Quand uᵀVu est-elle maximale ?
Quand u est égal au premier vecteur propre v₁ (αk = 1 k = 1, αk = 0 sinon )
Que fait-on dans le cas général en dimension d >= 1 ?
On projette sur les d premiers vecteurs propres
En quoi consiste l’ACP ? (diagonalisation et facteurs principaux)
À diagonaliser la matrice R pour obtenir les facteurs principaux v1, v2, v3, …, vd et à calculer les composantes principales ck= X vk
Quelle est la variance d’une composante principale cᵏ ? Que contiennent-elles ?
Elle est égale à la valeur propre λₖ : var(ck) = X λk
Elles contiennent les coordonnées des projections orthogonales des individus sur les axes définis par les facteurs principaux.
Pourquoi la variance est-elle égale à λₖ ?
Parce que V = R et ||vₖ|| = 1
Comment interpréter la variance d'une composante principale ck qui est égale à la valeur propre λₖ?
Les composantes principales sont des combinaisons linéaires de variables initiales de variances maximales. De plus, les nouvelles variables sont déconnectées.
Quelle est la formule de reconstitution ?
X = Σk=1p ck vk T
Quel est le théorème d’Eckart-Young en ACP ?
La matrice X̃ = Σk=1d cᵏ vₖᵀ est la meilleure approximation de X par une matrice de rang d au sens des moindres carrés
En quoi consiste la méthode ACP ? (méthode factorielle linéaire + transformer variable…)
On dit que l'ACP, méthode factorielle linéaire.
L’ACP consiste à transformer des variables xk corrélées en de nouvelles variables ck (appelées composantes principales) non corrélées entre elles, de variance maximale et les plus liées aux xk.
Comment définit-on le critère de qualité d’une ACP ?
C’est le pourcentage d’inertie totale expliquée : (Σk=1d λₖ ) / (Σk=1p λₖ) = Σk=1d λₖ/ (Ig)
Que regarde-t’on principalement pour donner un sens aux axes retenus ?
On regarde les coefficients de corrélation linéaire r( c, xk) entre les composantes principales et les variablesinitiales.
Quel coefficient de corrélation va-t’on privilégier ?
On privilégie les coefficients les plus forts en valeur absolue (proche de 1)
r(c, xk) = rac(λₖ) vk
A quoi correspond cᵢᵏ ?
La valeur pour l'individu i de la k-ième composante ck
Qu’est-ce que les éléments supplémentaires en ACP ?
Ce sont soit des variables élémentaires, soit des attributs système. Ils n'ont pas servi pour déterminer des facteurs, mais pour les reproduire. Ils apportent une information supplémentaire, à but d'interprétation ou de validation. Ce sont des valeurs tests.