CK

Statistiek 3 – Week 2: GLM, Regressie & ANOVA

Generalized Linear Model (GLM)

  • Verzamelnaam voor methoden die in Statistiek 3 aan bod komen: \text{OLS-regressie},\; \text{ANOVA},\; \text{ANCOVA},\; \text{MANOVA}
  • Alle technieken delen dezelfde onderliggende OLS-logica: modelleren van variantie in een afhankelijke variabele via verklarende variabelen.

Bivariate Regressie (simple OLS)

  • Doel: relatie tussen twee variabelen kwantificeren.
    • Voorbeeld: examen-cijfer Y voorspellen met aantal uren zelfstudie X.
  • Null-hypothesen zijn equivalent:
    • H0: \rho = 0 \; \Leftrightarrow \; H0: b = 0 \; \Leftrightarrow \; H_0: R = 0
  • Veronderstellingen:
    • Y en X kwantitatief (of X dichotoom).
    • Lineair verband Y \sim X.
    • Onafhankelijke observaties.
    • Homoscedasticiteit: gelijke errorvarianties.
    • Normaliteit van fouttermen: \varepsilon \sim N(0,\sigma^2) voor alle X.
  • Model (populatie): Yi = \beta0 + \beta Xi + \varepsiloni
    • Geschatte regressielijn: Yi' = b0 + b X_i
    • Componenten:
    • Totaalafwijking: (Y_i - \bar Y)
    • Voorspelde deel: (Y_i' - \bar Y)
    • Residue: (Yi - Yi')
    • Variantiesplitsing: SS{\text{tot}} = SS{\text{reg}} + SS_{\text{res}}
    • Determinatiecoëfficiënt: R^2 = \dfrac{SS{\text{reg}}}{SS{\text{tot}}}
    • Standaardfout van de schatting: SE{\text{est}} = \sqrt{\dfrac{\sum(Yi - Yi')^2}{N-2}} = \sqrt{(1-R^2)\,sY^2}

Praktijkvoorbeeld: TV-kijken en cholesterol

  • R = 0{,}389,\; R^2 = 0{,}151,\; SE_{\text{est}} = 0{,}538
  • ANOVA-tabel geeft F(1,98)=17{,}47,\; p<.001
  • Regressiecoëfficiënt: b = 0{,}044 \; \text{mmol/L per minuut TV} (significant).

ANOVA (One-Way)

  • Situatie: één kwantitatieve Y, één kwalitatieve X met k groepen.
  • Null-hypothese: H0: \mu1 = \mu2 = \dots = \muk.
  • Veronderstellingen voor de omnibus-F-test:
    • Y interval/ratio en binnen elke groep normaal verdeeld.
    • Gelijke varianties: s1^2 = s2^2 = \dots = s_k^2.
    • Onafhankelijke observaties binnen én tussen groepen.
    • Robuustheid: normaliteit & homoscedasticiteit redelijk robuust bij grote N; onafhankelijkheid niet.
  • Model: Y{ij} = \mu + \alphai + \varepsilon{ij},\; \varepsilon{ij} \sim N(0,\sigma^2)
    • Verwachte waarde binnen groep i: Y{ij}' = \mu + \alphai
  • Variantiesplitsing (tussen en binnen):
    • Totaal: SS{\text{tot}} = \sum!(Y{ij}-\bar Y)^2
    • Binnen: SS{\text{wg}} = \sum!(Y{ij}-\bar Y_i)^2
    • Tussen: SS{\text{bg}} = \sum ni(\bar Y_i-\bar Y)^2
    • SS{\text{tot}} = SS{\text{wg}} + SS_{\text{bg}}
  • F-ratio: F = \dfrac{MS{\text{bg}}}{MS{\text{wg}}} = \dfrac{SS{\text{bg}}/(k-1)}{SS{\text{wg}}/(N-k)}
    • df1 = k-1,\; df2 = N-k
  • Effectgrootte: \eta^2 = \dfrac{SS{\text{bg}}}{SS{\text{tot}}} (analogie R^2).

Onderliggende vergelijking van modellen

  • Vergelijk ‘reduced’ model (alleen globale \mu) met ‘complete’ model (aparte groepsgemiddelden).
  • Indien H_0 waar: extra parameters bieden geen winst → F \approx 1.

Voorbeeld: Zelfgerapporteerde angst (4 condities)

  • N=28,\; n_i=7 per conditie.
  • SPSS-output: F=11{,}94 (significant).

Onderzoekopzet visualisatie (Laerd)

  • Stap: trek steekproef → splits in groepen → meet Y → voer one-way ANOVA + post-hoc / contrasten uit.

Multiple Testing & Type I-fout

  • Elke extra toets vergroot familie-wijde kans op valse positieven.
    • Voor 20 toetsen bij \alpha=0{,}05: 1-(1-0{,}05)^{20}=0{,}6415.
  • Correcties:
    • Tukey (post-hoc) – minder conservatief.
    • Bonferroni – meest conservatief (\alpha_{\text{adj}} = \alpha/m).

Tukey’s Post-hoc Test

  • Gebruiken wanneer geen a-priori hypotheses bestaan.
  • Test alle \tfrac{k(k-1)}{2} paren; met k=4 ⇒ 6 toetsen.
  • Teststatistiek: q = \dfrac{|\bar Yi-\bar Yj|}{\sqrt{MS{\text{wg}}/nH}}
    • n_H = harmonisch gemiddelde groepsgroottes.
  • Grens voor significantie (HSD): HSD = q{crit} \sqrt{MS{\text{wg}}/n_H}.
  • Studentized-range-verdeling: dikkere staarten bij groter k ⇒ hogere kritieke waarden → grotere kans op Type II-fout.
  • Ongelijke varianten? → Games-Howell.
  • Ongelijke groepsgroottes? → SPSS past Tukey-Kramer aan.

Contrasten

Simple Contrasts (paar-gewijs, a-priori)

  • Contrast-gewichten sommeren tot 0; voorbeeld H0: \mu1=\mu_2 geeft vector (+1,-1,0,0).
  • Voorbeeld CWWS: verschil Sedentary vs Low bleek significant als contrast, maar niet in post-hoc; CI’s verschillen door correctie.

Complex Contrasts

  • Eén hypothese vergelijkt meerdere groepen tegelijk of test trend.
    • Lineaire trend (5 groepen): (-2,-1,0,1,2).
  • Voorbeeld 1: \tfrac12\mu2+\tfrac12\mu3-\mu_1=0 ⇒ $(-1,+\tfrac12,+\tfrac12,0)$.
  • Voorbeeld 2: -\tfrac12\mu1-\tfrac12\mu2+\mu_4=0 ⇒ $(-\tfrac12,-\tfrac12,0,+1)$.
  • Onafhankelijke (orthogonale) contrasten: som van kruisproducten = 0.
  • Contrast Sedentary vs overige drie: $(-1,\tfrac13,\tfrac13,\tfrac13)$ → significant: \Delta=2{,}68,\; CI_{95}\,[1{,}10,4{,}20],\; p<.001.

Bonferroni-correctie voor contrasten

  • Bij m vooraf gespecificeerde contrasten: \alpha_{\text{contrast}}=\alpha/m.
    • Twee contrasten ⇒ \alpha=0{,}025 elk.

Voorbeeldstudie: Werkstress & Fysieke activiteit

  • N=31, 4 groepen: Sedentary (7), Low (9), Moderate (8), High (7).
  • Afhankelijke variabele: CWWS-score (hoger = beter coping).
  • Descriptives:
    • Sedentary \bar Y=4{,}15; Low 5{,}88; Moderate 7{,}12; High 7{,}51.
  • Levene: niet-significant ⇒ variantie-aanname houdbaar.
  • Omnibus ANOVA: F(3,27)=8{,}316,\; p<.001 ⇒ H_0 verwerpen.
  • Tukey: verschil Sedentary ↔ High \Delta=3{,}35\;(CI\,[1{,}30,5{,}40]),\; p=.001.

Regressie vs Contrast

  • Complex contrast $(-1,1/3,1/3,1/3)$ kan als dummy-regressie worden gemodelleerd:
    • Maak dummy SEDENTARY=1 voor Sedentary, 0 anders.
    • Model: CWWSi' = b0 + b\,SED_i.
    • OLS-coëfficiënt: b=-2{,}241, t=16{,}56, R^2=0{,}603.
  • Klein verschil met contrastresultaat door ongelijke n_i (OLS weegt groepen proportioneel).

ANOVA Stappenplan

  1. Data verkennen, aannames checken (outliers, normaliteit, varianties).
  2. One-way ANOVA uitvoeren (met of zonder Welch bij ongelijke varianties).
  3. Post-hoc of vooraf geplande contrasten toepassen.
  4. Resultaten interpreteren en onderzoeksvraag beantwoorden.

Verdere Studie-instructies (Week 2)

  • Boeken: Agresti (2018) H12 §1-3 of Warner (2013) H6.
  • Grasple Statistiek 1 & 2, Canvas formatieve quiz.
  • Praktijkoefening SPSS: ANOVA & OLS.
  • Woensdag: herhaling week 1+2 (Menti, Canvas-quiz).
  • Volgende week: Hoorcollege Factorial ANOVA.