semiane 12 et 13 ensemble

RÉGRESSION SIMPLE

SEMAINE 13

  • Cours : MAT-1904, Méthodes quantitatives I, Université Laval

PLAN DE LA PRÉSENTATION

  • Interaction Wooclap sur les corrélations de Pearson et Spearman

  • Introduction

  • La régression linéaire

  • Un exemple complet

  • La régression simple avec JAMOVI

  • La modélisation par régression

  • Mot de la fin

  • Examen final MAT-1904

RAPPELS SUR LA CORRÉLATION

  • Interaction Wooclap sur les corrélations de Pearson et Spearman.

  • Exprime le lien entre deux variables, ne détermine pas si la corrélation est vraie ou fausse.

  • Covariance = 0 représente une absence d'association.

INTRODUCTION

  • Régression linéaire : Représentation d'une relation entre deux variables continue (X, Y) comme une droite.

  • Exemples :

    • Point P1 = (2,1), Point P2 = (5,2)

  • Notations mathématiques possibles :

    • Y=BX+AY = BX + A

    • Y=AX+CY = AX + C

    • Y=MX+BY = MX + B

  • Notation utilisée dans le cours : Y=B<em>0+B</em>1XY = B<em>0 + B</em>1X

    • B0B_0 : ordonnée à l'origine

    • B1B_1 : pente

RAPPELS : CALCULS DE LA PENTE ET DE L’ORDONNÉE À L’ORIGINE

  • Pente ($B_1$):

    • Représente la variation en Y par rapport à la variation en X :

    • Formule :
      B<em>1=racY</em>2Y<em>1X</em>2X1=rac2152=rac13B<em>1 = rac{Y</em>2 - Y<em>1}{X</em>2 - X_1} = rac{2 - 1}{5 - 2} = rac{1}{3}

    • Interprétation : Une augmentation d'une unité de X entraîne une augmentation de rac13rac{1}{3} unité en Y.

  • Ordonnée à l’origine ($B_0$):

    • Définie comme la valeur de Y lorsque X = 0.

    • Formule : B<em>0=Y</em>1B<em>1X</em>1B<em>0 = Y</em>1 - B<em>1 X</em>1

    • Exemples de calcul :
      B0=1rac13imes2=rac13B_0 = 1 - rac{1}{3} imes 2 = rac{1}{3}

EXEMPLES

  • Pour les points P1 et P2, la droite de régression obtenue est :

    • Y=rac13+rac13XY = rac{1}{3} + rac{1}{3}X

    • Pour X1 = 2, on trouve Y :
      Y1=rac13+rac13imes2=1Y_1 = rac{1}{3} + rac{1}{3} imes 2 = 1

    • Pour X2 = 5, on trouve Y :
      Y2=rac13+rac13imes5=2Y_2 = rac{1}{3} + rac{1}{3} imes 5 = 2

  • Associer un changement positif ($B_1 > 0$) à une droite croissante.

RÉGRESSION LINÉAIRE SIMPLE

  • La régression modélise la relation entre plus d'une variable indépendante et une variable dépendante.

  • Ne permet pas d'inférer des relations de causalité plus qu'avec la corrélation.

LE CALCUL DE LA PENTE ET DE L’ORDONNÉE À L’ORIGINE

  • L'objectif est de minimiser la distance entre les points de données et la droite de régression.

  • Résidu ($Ri$): L'écart entre la valeur observée ($Yi$) et la valeur prédite ($Ŷi$): R</em>i=Y<em>iY^</em>iR</em>i = Y<em>i - Ŷ</em>i

    • Permet de mesurer la qualité des prédictions.

OBJECTIF DE LA RÉGRESSION

  • Trouver le B1 qui minimise la somme des carrés des résidus (SCR) :
    SCR = extstyleig∑{i=1}^n (Yi - Ŷ_i)^2

  • Pourquoi les écarts sont au carré : Pour éviter qu’ils s’annulent, analogue à la variance.

EXEMPLE DE PRÉDICTION DU BONHEUR EN FONCTION DE LA MOTIVATION

  • Répondants notent leur motivation et bonheur de 0 à 10.

  • Calculs successifs pour ajuster la pente par méthode d'essai-erreur.

  • Résidus calculés pour évaluer chaque prévision.

DÉTERMINATION DE LA PENTE PAR ESSAI-ERREUR

  • Utilisation de modèles itératifs pour ajuster la pente B1B_1 déduite empiriquement.

  • Exemple d'équation de régression établie : Y=B<em>0+B</em>1XY = B<em>0 + B</em>1X

LA MÉTHODE DES MOINDRES CARRÉS

  • Méthode mathématiquement plus efficace par optimisation de la dérivée des erreurs au carré via le calcul différentiel.

FORMULE DIRECTE POUR LE CALCUL DE LA PENTE

  • Formellement :
    B<em>1=racCov(X,Y)S</em>X2B<em>1 = rac{Cov(X,Y)}{S</em>X^2}

  • Acquisition des informations de relation entre X et Y par la covariance.

EXEMPLE COMPLÉTÉ

  • Appliquer les calculs à des exemples de données réelles récoltées sur les répondants.

RÉGRESSION AVEC JAMOVI

  • Utilisation de logiciels pour simplifier l'analyse statistique.

  • Étapes pour l'application de la régression.

  • Résultats en temps réel incluant les coefficients, les p-valeurs, et les statistiques de test.

LA MODÉLISATION PAR RÉGRESSION

  • Souligne la flexibilité des modèles applicables avec nombreuses variables.

  • Exemples d'analyses : Corrélation, régression multiple, polynomiale et logistique.

MOT DE LA FIN

  • Exercices et quiz liés aux concepts de corrélations et régressions.

  • Temps de dépannage et futur des méthodes d'analyse.

La bonne interprétation est la suivante :

D. Le nombre de pas marchés explique 21% de la variance du poids

Explication :

  1. Le coefficient de corrélation (rr) est de 0.46-0.46. Il indique la force et la direction de la relation linéaire entre les deux variables.

  2. Le pourcentage de variance expliquée par la régression est donné par le coefficient de détermination (R2R^2), qui est le carré du coefficient de corrélation pour la régression simple.
    R2=r2=(0.46)2=0.2116R^2 = r^2 = (-0.46)^2 = 0.2116

  3. Converti en pourcentage, cela donne 0.2116×100=21.16%0.2116 \times 100 = 21.16\%, ce qui est environ 21%21\%.

  4. Dans une régression, la variable indépendante (ici, le nombre de pas marchés) explique la variance de la variable dépendante (ici, le poids).

Pour déterminer la valeur critique du coefficient de corrélation de Pearson (rr) pour une étude avec n=20n=20 participants et un seuil alpha de 5%5\% (bilatéral), nous devons trouver la valeur de rr telle que la statistique tt associée soit significative.

Les degrés de liberté (ddlddl) sont n2=202=18n-2 = 20-2 = 18.

Pour un test bilatéral avec alpha=0.05alpha = 0.05 et ddl=18ddl = 18, la valeur critique du tt (issue des tables de distribution t de Student) est d'environ ±2.101\pm 2.101.

La formule pour la statistique tt pour la corrélation est :
t=rn21r2t = r \sqrt{\frac{n-2}{1-r^2}}

En remplaçant les valeurs connues et en résolvant pour rr :
±2.101=r181r2\pm 2.101 = r \sqrt{\frac{18}{1-r^2}}

En résolvant, on trouve que la valeur absolue de rr doit être d'environ 0.44380.4438.

Puisque le collègue spécule une association négative, la corrélation de Pearson devrait être inférieure ou égale à 0.4438-0.4438 pour être significative. Parmi les options proposées, 0.44-0.44 est la valeur la plus appropriée.

La bonne réponse est donc C. -0.44.

La corrélation et la régression sont deux méthodes statistiques distinctes utilisées pour analyser la relation entre des variables, bien qu'elles soient souvent utilisées ensemble ou confondues. En voici les principales différences, en se basant sur les concepts abordés dans vos notes:

Corrélation

La corrélation vise à mesurer la force et la direction de la relation linéaire entre deux variables. Comme mentionné dans vos notes, elle "exprime le lien entre deux variables, ne détermine pas si la corrélation est vraie ou fausse."

  • Objectif principal : Quantifier l'intensité de l'association. Par exemple, le coefficient de corrélation de Pearson (rr) varie de 1-1 à +1+1.

  • Nature de la relation : Elle ne distingue pas de variable dépendante ou indépendante; elle est symétrique. Par exemple, la corrélation entre X et Y est la même que celle entre Y et X.

  • Prédiction/Modélisation : La corrélation ne permet pas de prédire la valeur d'une variable à partir d'une autre.

  • Causalité : Une corrélation n'implique pas de causalité. Même une forte corrélation ne signifie pas que l'une des variables cause l'autre.

Régression

La régression linéaire, quant à elle, a pour objectif de modéliser la relation entre une variable dépendante (Y) et une ou plusieurs variables indépendantes (X) afin de prédire les valeurs de la variable dépendante. Selon la note, la régression linéaire est la "représentation d'une relation entre deux variables continues (X, Y) comme une droite", typiquement sous la forme Y=B<em>0+B</em>1XY = B<em>0 + B</em>1X.

  • Objectif principal : Prédire la valeur de la variable dépendante (Y) à partir des valeurs de la ou des variables indépendantes (X) et de comprendre comment Y change lorsque X change.

  • Nature de la relation : Elle établit une relation asymétrique où une (ou plusieurs) variable(s) indépendante(s) est/sont utilisée(s) pour expliquer ou prédire une variable dépendante.

  • Prédiction/Modélisation : Elle permet de construire un modèle (une équation de droite dans le cas de la régression simple) pour estimer les valeurs de Y pour de nouvelles valeurs de X. Le coefficient de détermination (R2R^2) indique le pourcentage de variance de Y expliqué par X.

  • Causalité : Tout comme la corrélation, la régression "ne permet pas d'inférer des relations de causalité". Elle modélise une relation statistique, mais pas nécessairement une relation de cause à effet.