semiane 12 et 13 ensemble
RÉGRESSION SIMPLE
SEMAINE 13
Cours : MAT-1904, Méthodes quantitatives I, Université Laval
PLAN DE LA PRÉSENTATION
Interaction Wooclap sur les corrélations de Pearson et Spearman
Introduction
La régression linéaire
Un exemple complet
La régression simple avec JAMOVI
La modélisation par régression
Mot de la fin
Examen final MAT-1904
RAPPELS SUR LA CORRÉLATION
Interaction Wooclap sur les corrélations de Pearson et Spearman.
Exprime le lien entre deux variables, ne détermine pas si la corrélation est vraie ou fausse.
Covariance = 0 représente une absence d'association.
INTRODUCTION
Régression linéaire : Représentation d'une relation entre deux variables continue (X, Y) comme une droite.
Exemples :
Point P1 = (2,1), Point P2 = (5,2)
Notations mathématiques possibles :
Notation utilisée dans le cours :
: ordonnée à l'origine
: pente
RAPPELS : CALCULS DE LA PENTE ET DE L’ORDONNÉE À L’ORIGINE
Pente ($B_1$):
Représente la variation en Y par rapport à la variation en X :
Formule :
Interprétation : Une augmentation d'une unité de X entraîne une augmentation de unité en Y.
Ordonnée à l’origine ($B_0$):
Définie comme la valeur de Y lorsque X = 0.
Formule :
Exemples de calcul :
EXEMPLES
Pour les points P1 et P2, la droite de régression obtenue est :
Pour X1 = 2, on trouve Y :
Pour X2 = 5, on trouve Y :
Associer un changement positif ($B_1 > 0$) à une droite croissante.
RÉGRESSION LINÉAIRE SIMPLE
La régression modélise la relation entre plus d'une variable indépendante et une variable dépendante.
Ne permet pas d'inférer des relations de causalité plus qu'avec la corrélation.
LE CALCUL DE LA PENTE ET DE L’ORDONNÉE À L’ORIGINE
L'objectif est de minimiser la distance entre les points de données et la droite de régression.
Résidu ($Ri$): L'écart entre la valeur observée ($Yi$) et la valeur prédite ($Ŷi$):
Permet de mesurer la qualité des prédictions.
OBJECTIF DE LA RÉGRESSION
Trouver le B1 qui minimise la somme des carrés des résidus (SCR) :
SCR = extstyleig∑{i=1}^n (Yi - Ŷ_i)^2Pourquoi les écarts sont au carré : Pour éviter qu’ils s’annulent, analogue à la variance.
EXEMPLE DE PRÉDICTION DU BONHEUR EN FONCTION DE LA MOTIVATION
Répondants notent leur motivation et bonheur de 0 à 10.
Calculs successifs pour ajuster la pente par méthode d'essai-erreur.
Résidus calculés pour évaluer chaque prévision.
DÉTERMINATION DE LA PENTE PAR ESSAI-ERREUR
Utilisation de modèles itératifs pour ajuster la pente déduite empiriquement.
Exemple d'équation de régression établie :
LA MÉTHODE DES MOINDRES CARRÉS
Méthode mathématiquement plus efficace par optimisation de la dérivée des erreurs au carré via le calcul différentiel.
FORMULE DIRECTE POUR LE CALCUL DE LA PENTE
Formellement :
Acquisition des informations de relation entre X et Y par la covariance.
EXEMPLE COMPLÉTÉ
Appliquer les calculs à des exemples de données réelles récoltées sur les répondants.
RÉGRESSION AVEC JAMOVI
Utilisation de logiciels pour simplifier l'analyse statistique.
Étapes pour l'application de la régression.
Résultats en temps réel incluant les coefficients, les p-valeurs, et les statistiques de test.
LA MODÉLISATION PAR RÉGRESSION
Souligne la flexibilité des modèles applicables avec nombreuses variables.
Exemples d'analyses : Corrélation, régression multiple, polynomiale et logistique.
MOT DE LA FIN
Exercices et quiz liés aux concepts de corrélations et régressions.
Temps de dépannage et futur des méthodes d'analyse.
La bonne interprétation est la suivante :
D. Le nombre de pas marchés explique 21% de la variance du poids
Explication :
Le coefficient de corrélation () est de . Il indique la force et la direction de la relation linéaire entre les deux variables.
Le pourcentage de variance expliquée par la régression est donné par le coefficient de détermination (), qui est le carré du coefficient de corrélation pour la régression simple.
Converti en pourcentage, cela donne , ce qui est environ .
Dans une régression, la variable indépendante (ici, le nombre de pas marchés) explique la variance de la variable dépendante (ici, le poids).
Pour déterminer la valeur critique du coefficient de corrélation de Pearson () pour une étude avec participants et un seuil alpha de (bilatéral), nous devons trouver la valeur de telle que la statistique associée soit significative.
Les degrés de liberté () sont .
Pour un test bilatéral avec et , la valeur critique du (issue des tables de distribution t de Student) est d'environ .
La formule pour la statistique pour la corrélation est :
En remplaçant les valeurs connues et en résolvant pour :
En résolvant, on trouve que la valeur absolue de doit être d'environ .
Puisque le collègue spécule une association négative, la corrélation de Pearson devrait être inférieure ou égale à pour être significative. Parmi les options proposées, est la valeur la plus appropriée.
La bonne réponse est donc C. -0.44.
La corrélation et la régression sont deux méthodes statistiques distinctes utilisées pour analyser la relation entre des variables, bien qu'elles soient souvent utilisées ensemble ou confondues. En voici les principales différences, en se basant sur les concepts abordés dans vos notes:
Corrélation
La corrélation vise à mesurer la force et la direction de la relation linéaire entre deux variables. Comme mentionné dans vos notes, elle "exprime le lien entre deux variables, ne détermine pas si la corrélation est vraie ou fausse."
Objectif principal : Quantifier l'intensité de l'association. Par exemple, le coefficient de corrélation de Pearson () varie de à .
Nature de la relation : Elle ne distingue pas de variable dépendante ou indépendante; elle est symétrique. Par exemple, la corrélation entre X et Y est la même que celle entre Y et X.
Prédiction/Modélisation : La corrélation ne permet pas de prédire la valeur d'une variable à partir d'une autre.
Causalité : Une corrélation n'implique pas de causalité. Même une forte corrélation ne signifie pas que l'une des variables cause l'autre.
Régression
La régression linéaire, quant à elle, a pour objectif de modéliser la relation entre une variable dépendante (Y) et une ou plusieurs variables indépendantes (X) afin de prédire les valeurs de la variable dépendante. Selon la note, la régression linéaire est la "représentation d'une relation entre deux variables continues (X, Y) comme une droite", typiquement sous la forme .
Objectif principal : Prédire la valeur de la variable dépendante (Y) à partir des valeurs de la ou des variables indépendantes (X) et de comprendre comment Y change lorsque X change.
Nature de la relation : Elle établit une relation asymétrique où une (ou plusieurs) variable(s) indépendante(s) est/sont utilisée(s) pour expliquer ou prédire une variable dépendante.
Prédiction/Modélisation : Elle permet de construire un modèle (une équation de droite dans le cas de la régression simple) pour estimer les valeurs de Y pour de nouvelles valeurs de X. Le coefficient de détermination () indique le pourcentage de variance de Y expliqué par X.
Causalité : Tout comme la corrélation, la régression "ne permet pas d'inférer des relations de causalité". Elle modélise une relation statistique, mais pas nécessairement une relation de cause à effet.