semiane 12 et 13 ensemble

RÉGRESSION SIMPLE

SEMAINE 13

Cours : MAT-1904, Méthodes quantitatives I, Université Laval

PLAN DE LA PRÉSENTATION

Interaction Wooclap sur les corrélations de Pearson et Spearman
Introduction
La régression linéaire
Un exemple complet
La régression simple avec JAMOVI
La modélisation par régression
Mot de la fin
Examen final MAT-1904

RAPPELS SUR LA CORRÉLATION

Interaction Wooclap sur les corrélations de Pearson et Spearman.
Exprime le lien entre deux variables, ne détermine pas si la corrélation est vraie ou fausse.
Covariance = 0 représente une absence d'association.

INTRODUCTION

Régression linéaire : Représentation d'une relation entre deux variables continue (X, Y) comme une droite.
Exemples :
- Point P1 = (2,1), Point P2 = (5,2)
Notations mathématiques possibles :
- $Y = BX + A$
- $Y = AX + C$
- $Y = MX + B$
Notation utilisée dans le cours : $Y = B0 + B1X$
- $B_0$ : ordonnée à l'origine
- $B_1$ : pente

RAPPELS : CALCULS DE LA PENTE ET DE L’ORDONNÉE À L’ORIGINE

Pente ($B_1$):
- Représente la variation en Y par rapport à la variation en X :
- Formule :
 $B1 = rac{Y2 - Y1}{X2 - X_1} = rac{2 - 1}{5 - 2} = rac{1}{3}$
- Interprétation : Une augmentation d'une unité de X entraîne une augmentation de $rac{1}{3}$ unité en Y.
Ordonnée à l’origine ($B_0$):
- Définie comme la valeur de Y lorsque X = 0.
- Formule : $B0 = Y1 - B1 X1$
- Exemples de calcul :
 $B_0 = 1 - rac{1}{3} imes 2 = rac{1}{3}$

EXEMPLES

Pour les points P1 et P2, la droite de régression obtenue est :
- $Y = rac{1}{3} + rac{1}{3}X$
- Pour X1 = 2, on trouve Y :
  $Y_1 = rac{1}{3} + rac{1}{3} imes 2 = 1$
- Pour X2 = 5, on trouve Y :
  $Y_2 = rac{1}{3} + rac{1}{3} imes 5 = 2$
Associer un changement positif ($B_1 > 0$) à une droite croissante.

RÉGRESSION LINÉAIRE SIMPLE

La régression modélise la relation entre plus d'une variable indépendante et une variable dépendante.
Ne permet pas d'inférer des relations de causalité plus qu'avec la corrélation.

LE CALCUL DE LA PENTE ET DE L’ORDONNÉE À L’ORIGINE

L'objectif est de minimiser la distance entre les points de données et la droite de régression.
Résidu ($Ri$): L'écart entre la valeur observée ($Yi$) et la valeur prédite ($Ŷi$): $Ri = Yi - Ŷi$
- Permet de mesurer la qualité des prédictions.

OBJECTIF DE LA RÉGRESSION

Trouver le B1 qui minimise la somme des carrés des résidus (SCR) :
SCR = extstyleig∑{i=1}^n (Yi - Ŷ_i)^2
Pourquoi les écarts sont au carré : Pour éviter qu’ils s’annulent, analogue à la variance.

EXEMPLE DE PRÉDICTION DU BONHEUR EN FONCTION DE LA MOTIVATION

Répondants notent leur motivation et bonheur de 0 à 10.
Calculs successifs pour ajuster la pente par méthode d'essai-erreur.
Résidus calculés pour évaluer chaque prévision.

DÉTERMINATION DE LA PENTE PAR ESSAI-ERREUR

Utilisation de modèles itératifs pour ajuster la pente $B_1$ déduite empiriquement.
Exemple d'équation de régression établie : $Y = B0 + B1X$

LA MÉTHODE DES MOINDRES CARRÉS

Méthode mathématiquement plus efficace par optimisation de la dérivée des erreurs au carré via le calcul différentiel.

FORMULE DIRECTE POUR LE CALCUL DE LA PENTE

Formellement :
$B1 = rac{Cov(X,Y)}{SX^2}$
Acquisition des informations de relation entre X et Y par la covariance.

EXEMPLE COMPLÉTÉ

Appliquer les calculs à des exemples de données réelles récoltées sur les répondants.

RÉGRESSION AVEC JAMOVI

Utilisation de logiciels pour simplifier l'analyse statistique.
Étapes pour l'application de la régression.
Résultats en temps réel incluant les coefficients, les p-valeurs, et les statistiques de test.

LA MODÉLISATION PAR RÉGRESSION

Souligne la flexibilité des modèles applicables avec nombreuses variables.
Exemples d'analyses : Corrélation, régression multiple, polynomiale et logistique.

MOT DE LA FIN

Exercices et quiz liés aux concepts de corrélations et régressions.
Temps de dépannage et futur des méthodes d'analyse.

La bonne interprétation est la suivante :

D. Le nombre de pas marchés explique 21% de la variance du poids

Explication :

Le coefficient de corrélation ( $r$ ) est de $-0.46$ . Il indique la force et la direction de la relation linéaire entre les deux variables.
Le pourcentage de variance expliquée par la régression est donné par le coefficient de détermination ( $R^2$ ), qui est le carré du coefficient de corrélation pour la régression simple.
$R^2 = r^2 = (-0.46)^2 = 0.2116$
Converti en pourcentage, cela donne $0.2116 \times 100 = 21.16\%$ , ce qui est environ $21\%$ .
Dans une régression, la variable indépendante (ici, le nombre de pas marchés) explique la variance de la variable dépendante (ici, le poids).

Pour déterminer la valeur critique du coefficient de corrélation de Pearson ( $r$ ) pour une étude avec $n=20$ participants et un seuil alpha de $5\%$ (bilatéral), nous devons trouver la valeur de $r$ telle que la statistique $t$ associée soit significative.

Les degrés de liberté ( $ddl$ ) sont $n-2 = 20-2 = 18$ .

Pour un test bilatéral avec $alpha = 0.05$ et $ddl = 18$ , la valeur critique du $t$ (issue des tables de distribution t de Student) est d'environ $\pm 2.101$ .

La formule pour la statistique $t$ pour la corrélation est :
$t = r \sqrt{\frac{n-2}{1-r^2}}$

En remplaçant les valeurs connues et en résolvant pour $r$ :
$\pm 2.101 = r \sqrt{\frac{18}{1-r^2}}$

En résolvant, on trouve que la valeur absolue de $r$ doit être d'environ $0.4438$ .

Puisque le collègue spécule une association négative, la corrélation de Pearson devrait être inférieure ou égale à $-0.4438$ pour être significative. Parmi les options proposées, $-0.44$ est la valeur la plus appropriée.

La bonne réponse est donc C. -0.44.

La corrélation et la régression sont deux méthodes statistiques distinctes utilisées pour analyser la relation entre des variables, bien qu'elles soient souvent utilisées ensemble ou confondues. En voici les principales différences, en se basant sur les concepts abordés dans vos notes:

Corrélation

La corrélation vise à mesurer la force et la direction de la relation linéaire entre deux variables. Comme mentionné dans vos notes, elle "exprime le lien entre deux variables, ne détermine pas si la corrélation est vraie ou fausse."

Objectif principal : Quantifier l'intensité de l'association. Par exemple, le coefficient de corrélation de Pearson ( $r$ ) varie de $-1$ à $+1$ .
Nature de la relation : Elle ne distingue pas de variable dépendante ou indépendante; elle est symétrique. Par exemple, la corrélation entre X et Y est la même que celle entre Y et X.
Prédiction/Modélisation : La corrélation ne permet pas de prédire la valeur d'une variable à partir d'une autre.
Causalité : Une corrélation n'implique pas de causalité. Même une forte corrélation ne signifie pas que l'une des variables cause l'autre.

Régression

La régression linéaire, quant à elle, a pour objectif de modéliser la relation entre une variable dépendante (Y) et une ou plusieurs variables indépendantes (X) afin de prédire les valeurs de la variable dépendante. Selon la note, la régression linéaire est la "représentation d'une relation entre deux variables continues (X, Y) comme une droite", typiquement sous la forme $Y = B0 + B1X$ .

Objectif principal : Prédire la valeur de la variable dépendante (Y) à partir des valeurs de la ou des variables indépendantes (X) et de comprendre comment Y change lorsque X change.
Nature de la relation : Elle établit une relation asymétrique où une (ou plusieurs) variable(s) indépendante(s) est/sont utilisée(s) pour expliquer ou prédire une variable dépendante.
Prédiction/Modélisation : Elle permet de construire un modèle (une équation de droite dans le cas de la régression simple) pour estimer les valeurs de Y pour de nouvelles valeurs de X. Le coefficient de détermination ( $R^2$ ) indique le pourcentage de variance de Y expliqué par X.
Causalité : Tout comme la corrélation, la régression "ne permet pas d'inférer des relations de causalité". Elle modélise une relation statistique, mais pas nécessairement une relation de cause à effet.