Statistiek 3 – Week 2: GLM, Regressie & ANOVA
Generalized Linear Model (GLM)
- Verzamelnaam voor methoden die in Statistiek 3 aan bod komen: \text{OLS-regressie},\; \text{ANOVA},\; \text{ANCOVA},\; \text{MANOVA}
- Alle technieken delen dezelfde onderliggende OLS-logica: modelleren van variantie in een afhankelijke variabele via verklarende variabelen.
Bivariate Regressie (simple OLS)
- Doel: relatie tussen twee variabelen kwantificeren.
- Voorbeeld: examen-cijfer Y voorspellen met aantal uren zelfstudie X.
- Null-hypothesen zijn equivalent:
- H0: \rho = 0 \; \Leftrightarrow \; H0: b = 0 \; \Leftrightarrow \; H_0: R = 0
- Veronderstellingen:
- Y en X kwantitatief (of X dichotoom).
- Lineair verband Y \sim X.
- Onafhankelijke observaties.
- Homoscedasticiteit: gelijke errorvarianties.
- Normaliteit van fouttermen: \varepsilon \sim N(0,\sigma^2) voor alle X.
- Model (populatie): Yi = \beta0 + \beta Xi + \varepsiloni
- Geschatte regressielijn: Yi' = b0 + b X_i
- Componenten:
- Totaalafwijking: (Y_i - \bar Y)
- Voorspelde deel: (Y_i' - \bar Y)
- Residue: (Yi - Yi')
- Variantiesplitsing: SS{\text{tot}} = SS{\text{reg}} + SS_{\text{res}}
- Determinatiecoëfficiënt: R^2 = \dfrac{SS{\text{reg}}}{SS{\text{tot}}}
- Standaardfout van de schatting: SE{\text{est}} = \sqrt{\dfrac{\sum(Yi - Yi')^2}{N-2}} = \sqrt{(1-R^2)\,sY^2}
Praktijkvoorbeeld: TV-kijken en cholesterol
- R = 0{,}389,\; R^2 = 0{,}151,\; SE_{\text{est}} = 0{,}538
- ANOVA-tabel geeft F(1,98)=17{,}47,\; p<.001
- Regressiecoëfficiënt: b = 0{,}044 \; \text{mmol/L per minuut TV} (significant).
ANOVA (One-Way)
- Situatie: één kwantitatieve Y, één kwalitatieve X met k groepen.
- Null-hypothese: H0: \mu1 = \mu2 = \dots = \muk.
- Veronderstellingen voor de omnibus-F-test:
- Y interval/ratio en binnen elke groep normaal verdeeld.
- Gelijke varianties: s1^2 = s2^2 = \dots = s_k^2.
- Onafhankelijke observaties binnen én tussen groepen.
- Robuustheid: normaliteit & homoscedasticiteit redelijk robuust bij grote N; onafhankelijkheid niet.
- Model: Y{ij} = \mu + \alphai + \varepsilon{ij},\; \varepsilon{ij} \sim N(0,\sigma^2)
- Verwachte waarde binnen groep i: Y{ij}' = \mu + \alphai
- Variantiesplitsing (tussen en binnen):
- Totaal: SS{\text{tot}} = \sum!(Y{ij}-\bar Y)^2
- Binnen: SS{\text{wg}} = \sum!(Y{ij}-\bar Y_i)^2
- Tussen: SS{\text{bg}} = \sum ni(\bar Y_i-\bar Y)^2
- SS{\text{tot}} = SS{\text{wg}} + SS_{\text{bg}}
- F-ratio: F = \dfrac{MS{\text{bg}}}{MS{\text{wg}}} = \dfrac{SS{\text{bg}}/(k-1)}{SS{\text{wg}}/(N-k)}
- Effectgrootte: \eta^2 = \dfrac{SS{\text{bg}}}{SS{\text{tot}}} (analogie R^2).
Onderliggende vergelijking van modellen
- Vergelijk ‘reduced’ model (alleen globale \mu) met ‘complete’ model (aparte groepsgemiddelden).
- Indien H_0 waar: extra parameters bieden geen winst → F \approx 1.
Voorbeeld: Zelfgerapporteerde angst (4 condities)
- N=28,\; n_i=7 per conditie.
- SPSS-output: F=11{,}94 (significant).
Onderzoekopzet visualisatie (Laerd)
- Stap: trek steekproef → splits in groepen → meet Y → voer one-way ANOVA + post-hoc / contrasten uit.
Multiple Testing & Type I-fout
- Elke extra toets vergroot familie-wijde kans op valse positieven.
- Voor 20 toetsen bij \alpha=0{,}05: 1-(1-0{,}05)^{20}=0{,}6415.
- Correcties:
- Tukey (post-hoc) – minder conservatief.
- Bonferroni – meest conservatief (\alpha_{\text{adj}} = \alpha/m).
Tukey’s Post-hoc Test
- Gebruiken wanneer geen a-priori hypotheses bestaan.
- Test alle \tfrac{k(k-1)}{2} paren; met k=4 ⇒ 6 toetsen.
- Teststatistiek: q = \dfrac{|\bar Yi-\bar Yj|}{\sqrt{MS{\text{wg}}/nH}}
- n_H = harmonisch gemiddelde groepsgroottes.
- Grens voor significantie (HSD): HSD = q{crit} \sqrt{MS{\text{wg}}/n_H}.
- Studentized-range-verdeling: dikkere staarten bij groter k ⇒ hogere kritieke waarden → grotere kans op Type II-fout.
- Ongelijke varianten? → Games-Howell.
- Ongelijke groepsgroottes? → SPSS past Tukey-Kramer aan.
Contrasten
Simple Contrasts (paar-gewijs, a-priori)
- Contrast-gewichten sommeren tot 0; voorbeeld H0: \mu1=\mu_2 geeft vector (+1,-1,0,0).
- Voorbeeld CWWS: verschil Sedentary vs Low bleek significant als contrast, maar niet in post-hoc; CI’s verschillen door correctie.
Complex Contrasts
- Eén hypothese vergelijkt meerdere groepen tegelijk of test trend.
- Lineaire trend (5 groepen): (-2,-1,0,1,2).
- Voorbeeld 1: \tfrac12\mu2+\tfrac12\mu3-\mu_1=0 ⇒ $(-1,+\tfrac12,+\tfrac12,0)$.
- Voorbeeld 2: -\tfrac12\mu1-\tfrac12\mu2+\mu_4=0 ⇒ $(-\tfrac12,-\tfrac12,0,+1)$.
- Onafhankelijke (orthogonale) contrasten: som van kruisproducten = 0.
- Contrast Sedentary vs overige drie: $(-1,\tfrac13,\tfrac13,\tfrac13)$ → significant: \Delta=2{,}68,\; CI_{95}\,[1{,}10,4{,}20],\; p<.001.
Bonferroni-correctie voor contrasten
- Bij m vooraf gespecificeerde contrasten: \alpha_{\text{contrast}}=\alpha/m.
- Twee contrasten ⇒ \alpha=0{,}025 elk.
Voorbeeldstudie: Werkstress & Fysieke activiteit
- N=31, 4 groepen: Sedentary (7), Low (9), Moderate (8), High (7).
- Afhankelijke variabele: CWWS-score (hoger = beter coping).
- Descriptives:
- Sedentary \bar Y=4{,}15; Low 5{,}88; Moderate 7{,}12; High 7{,}51.
- Levene: niet-significant ⇒ variantie-aanname houdbaar.
- Omnibus ANOVA: F(3,27)=8{,}316,\; p<.001 ⇒ H_0 verwerpen.
- Tukey: verschil Sedentary ↔ High \Delta=3{,}35\;(CI\,[1{,}30,5{,}40]),\; p=.001.
Regressie vs Contrast
- Complex contrast $(-1,1/3,1/3,1/3)$ kan als dummy-regressie worden gemodelleerd:
- Maak dummy SEDENTARY=1 voor Sedentary, 0 anders.
- Model: CWWSi' = b0 + b\,SED_i.
- OLS-coëfficiënt: b=-2{,}241, t=16{,}56, R^2=0{,}603.
- Klein verschil met contrastresultaat door ongelijke n_i (OLS weegt groepen proportioneel).
ANOVA Stappenplan
- Data verkennen, aannames checken (outliers, normaliteit, varianties).
- One-way ANOVA uitvoeren (met of zonder Welch bij ongelijke varianties).
- Post-hoc of vooraf geplande contrasten toepassen.
- Resultaten interpreteren en onderzoeksvraag beantwoorden.
Verdere Studie-instructies (Week 2)
- Boeken: Agresti (2018) H12 §1-3 of Warner (2013) H6.
- Grasple Statistiek 1 & 2, Canvas formatieve quiz.
- Praktijkoefening SPSS: ANOVA & OLS.
- Woensdag: herhaling week 1+2 (Menti, Canvas-quiz).
- Volgende week: Hoorcollege Factorial ANOVA.