1/75
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Quelles sont les deux grandes catégories de méthodes en analyse de données ?
description et réduction de dimension
classification (non supervisée)
À quoi correspond n dans les données statistiques ?
n correspond au nombre d’individus (éléments, objets, etc.), on parle de population
Quelles sont les natures possibles des p variables observées ?
les variables peuvent être quantitatives (numériques) ou qualitatives : nominales (qualifiées par une couleur, une catégorie) et ordinales (avec un ordre)
Que signifie la classification non supervisée ?
dans la classification non supervisée, on ne connaît pas les classes
Qu’est-ce que la classification en analyse de données ?
la classification est l’action de regrouper des individus en classes, le résultat de cette action
À quoi est liée la notion de classe en classification ?
la notion de classe est liée à la relation de classe d’équivalence, définie à partir d’une relation binaire
Que signifie l’écriture x R y ?
x R y signifie que x et y sont en relation pour R
Quand une relation R est-elle une relation d’équivalence ?
une relation R est une relation d’équivalence si elle est réflexive, symétrique et transitive
Dans la classification supervisée, que ne connaît-on pas ?
Les classes
Qu’est-ce que la classification ?
Action de regrouper des individus en classes
Qu’est-ce qu’une classe ?
Le résultat de l’action de classification, lié à la notion de classe d’équivalence
Quand dit-on qu’une relation R est réflexive ?
Pour tout x, x R x
Quand dit-on qu’une relation R est symétrique ?
Pour tous x, y, si x R y alors y R x
Quand dit-on qu’une relation R est transitive ?
Pour tous x, y, z, si x R y et y R z alors x R z
Qu’est-ce qu’une relation d’équivalence ?
Une relation réflexive, symétrique et transitive
Que considère-t-on dans le problème général de la classification non supervisée ?
On considère n éléments dotés de p caractéristiques et des données qualitatives
Quel est le but de la classification non supervisée ?
Trouver une partition des éléments ou des individus qui soit la meilleure possible pour un critère donné
Que représente x_{ik} dans la matrice de données X ?
x_{ik} représente la propriété de l’individu i par rapport à la caractéristique k
Comment une caractéristique peut-elle être représentée dans la classification non supervisée ?
Chaque caractéristique peut être représentée par une relation binaire, et même une relation d’équivalence, définie par i Rk j ⇔ xik = xjk
Quelle est l’interprétation de la classification en classification non supervisée ? ( Qu’est-ce qu’on cherche avec R ?)
On cherche une relation d’équivalence R que l’on ne connaît pas
Comment mesurer si une relation R est plus ou moins bonne ?
On peut compter le nombre de différences entre R et les relations dérivées R_k pour tout k
Comment s’écrit la mesure de différence entre une relation R et une relation R_k ?
|R Δ Rk| = card{(i,j) | (i R j et non i Rk j) ou (i R_k j et non i R j)}
Quel est le problème de la classification non supervisée à partir de relations binaires ?
Étant données p relations binaires R₁,…,Rp définies sur N = {1,…,m}, trouver une relation binaire d’équivalence R* qui minimise la quantité ∑{k=1}^p |R* Δ R_k|
Quelle est la remarque importante concernant les relations R_k dans le problème de classification non supervisée ?
Normalement, on s’attend à ce que les relations R_k soient des relations d’équivalence
Pourquoi la définition du problème reste-t-elle valable même si les relations R_k ne sont pas des relations d’équivalence ?
Parce que la définition fonctionne dans tous les cas, même si les relations R_k ne sont pas des relations d’équivalence
Comment s’appelle le modèle associé à la somme ∑{k=1}^p |R* Δ Rk| et quelle est la nature du problème ?
C’est le modèle d’agrégation statistique, et c’est un problème d’optimisation combinatoire
Que représente la formulation par programmation linéaire binaire dans le problème de classification ?
Elle consiste à reformuler le problème comme un problème de programmation linéaire binaire à partir des relations données
Comment sont définies les variables r^k{ij} et r{ij} dans la formulation par programmation linéaire binaire ?
r^k{ij} = 1 si i Rk j, 0 sinon (données), et r_{ij} = 1 si i R j, 0 sinon (variables)
Qu’est-ce que la fonction économique dans la formulation du problème de classification ?
C’est la fonction que l’on cherche à minimiser, en utilisant le fait que si x ∈ {0,1} alors x² = x, on obtient :
∑k=1p |R Δ Rk| = ∑k=1p ∑(i,j)∈N² (rijk − rij)² + C,
ce qui revient à minimiser
g = ∑(i,j)∈N² cij rij, avec cij = ∑k=1p (1 − 2 rijk).
Quelle est la fonction objectif à minimiser dans la formulation du problème ?
On cherche à minimiser g = ∑{(i,j)∈N²} c{ij} r{ij}, où c{ij} = ∑{k=1}^p (1 − 2 r{ij}^k)
Comment se formule le problème général de la classification non supervisée ? (formule et contrainte)
Min ∑{1 ≤ i < j ≤ m} wij xij sous les contraintes
xij + xjk − xik ≤ 1 pour tout (i,j,k) ∈ T et xij ∈ {0,1}
Quelles remarques peut-on faire sur les variables x_{ij} dans la formulation du problème ?
On a x{ij} = x{ji} et les termes constants ont été retirés de la fonction objectif car r_{ii} = 1
Qu’est-ce que l’inertie intra-classe et comment s’exprime-t-elle mathématiquement ?
Et si les données sont réparties en K classes, que cherche-t’on à maximiser ?
Comment cela s’exprime mathématiquement ?
Pourquoi la somme des poids est invariante ?
Somme des poids des paires d’éléments appartenant à une même classe, donnée par Σ1 ≤ i < j ≤ n wij xij = Σ1 ≤ i < j ≤ n Σ i € Ck Σj € Ck (i=/j) wij
xij vaut 1 si les éléments i et j sont dans la même classe (sinon 0),
wij est le poids ou la similarité entre i et j ;
si les données sont partitionnées en K classes {C1, C2, …, CK}, on cherche à maximiser l’inertie inter-classes :
Max Σ1 ≤ i < j ≤ n wij (1 − xij) ;
(1 − xij) signifie que i et j sont dans des classes différentes ;
la somme des poids est invariante car Σ wij xij + Σ wij (1 − xij) = Σ wij ;
Quelle est la reformulation du problème utilisant l’inertie inter-classes ?
Comme la somme totale des poids est constante, minimiser l’inertie intra-classe revient à maximiser l’inertie inter-classes, ce qui s’écrit : max Σ1 ≤ i < j ≤ n wij (1 − xij)
Un dendrogramme sur N = {1,…,n} est une application θ : [0,1] → S(N) telle que :
i) θ(0) est l’ensemble des singletons de N ;
ii) ∃ t₀ tel que ∀ t ≥ t₀, θ(t) = {N} ;
iii) ∀ t < t’, ∀ A ∈ θ(t), ∃ A’ ∈ θ(t’) tel que A ⊂ A’
Lien moyen = moyenne des dissimilarités entre les éléments des 2 classes. d(C1, C2) = 1 / (|C1||C2|) * ∑i∈C1 ∑_j∈C2 d(i,j)
Une application s : N×N → ℝ⁺ est une similarité si :
(i) s(i,j)=s(j,i) pour tout (i,j)∈N×N (symétrie),
(ii) s(i,i)=S>0 pour tout i∈N (ressemblance d’un individu avec lui-même),
(iii) s(i,j)≤S pour tout (i,j)∈N×N (la ressemblance est majorée par S)
Une application d : N×N → ℝ⁺ est une dissimilarité si :
(i) d(i,j)=d(j,i) pour tout (i,j)∈N×N (symétrie)
(ii) d(i,i)=0 pour tout i∈N (semi-définie positive)
Quelle propriété relie un indice de similarité s et un indice de dissimilarité d ?
Soient s : N×N → ℝ⁺, d : N×N → ℝ⁺ et S ∈ ℝ⁺* avec d(i,j)=S−s(i,j). Les deux propriétés suivantes sont équivalentes :
(i) s est une similarité et S=s(i,i) pour tout i∈N
(ii) d est une dissimilarité et S ≥ sup d(i,j) pour (i,j)∈N×N
Une application d : N×N → ℝ⁺ est une distance si :
(i) d(i,j)=d(j,i) pour tout (i,j)∈N×N (symétrie)
(ii) d(i,j)=0 ⇔ i=j (définie)
(iii) d(i,j) ≤ d(i,k)+d(k,j) pour tout i,j,k∈N (inégalité triangulaire)
Qu’est-ce qu’une partition U de E ?
Soit E un ensemble, une partition U de E est divisée en K parties (les classes) et on a U={U1,…,Uk} avec Up ∈ P(E) ∀p telle que :
(i) Uk ≠ ∅ ∀k∈{1,…,K},
(ii) ⋃_{k=1}^{K} Uk = E,
(iii) Uk ∩ Ul = ∅ ∀k,l∈{1,…,K} avec k ≠ l
Que considère-t-on dans la suite pour comparer des partitions ? (au niveau d’une ou de plsuieurs partitions)
Quelles sont les notations utilisées pour les paires d’éléments lors de la comparaison de deux partitions ?
Notation :
paire = 2 éléments,
a = nombre de paires qui sont ensemble dans U et dans Z,
b = nombre de paires qui sont ensemble dans U mais pas dans Z,
c = nombre de paires qui sont dans Z mais pas dans U,
d = nombre de paires qui ne sont ensemble ni dans Z, ni dans U
Quels sont les deux cas possibles lorsqu’on compare U et Z ?
Remarque U et Z : 2 cas
1) U et Z sont deux partitions quelconques qu'on souhaite comparer.
2) Une partition de référence est une partition obtenue par une heuristique.