CK

Statistiek 3 – Week 4 | Regressie, Dummy’s & ANCOVA

Structuur t/m week 3: ANOVA

  • Eén afhankelijke variabele (Y) kwantitatief, één of meer onafhankelijke variabelen (X) kwalitatief.
  • Varianten:
    • 1\;Y\;\text{kwant} \times 1\;X\;\text{kwal} (one-way ANOVA)
    • 1\;Y\;\text{kwant} \times \ge 2\;X\;\text{kwal} (factorial ANOVA)
    • Checks vóór analyse:
    • Outliers: 3-SD-regel / boxplot (evt. log-transformatie).
    • Homogeniteit varianties: Levene-test.
    • Normaliteit residuen: Kolmogorov–Smirnov & residuplots.
    • Overal F-test → verschillen tussen groepsgemiddelden.
    • Post-hoc: Tukey of Bonferroni (multipel) als H_0 verwerpen.
    • A-priori contrasten mogelijk bij hypothesen vooraf.
    • Regressie, FANOVA en ANCOVA sluiten aan als uitbreidingen.

Week 4: focus & hoofdstukken

  • Hoofdstuk 1: Regressie met dummy + kwantitatieve X → vergelijking met ANCOVA (regression-adjusted means).
  • Hoofdstuk 2: ANCOVA met kwantitatieve én kwalitatieve X → overeenkomsten/verschillen tussen regressie en AN(C)OVA.

Regressie met een dummyvariabele

  • Doel: groepsverschillen analyseren binnen regressiekader.
  • Voorbeeld: verschil in salaris (in \$1000) tussen mannen en vrouwen.
  • Alternatief voor t-test / ANOVA.

Dummy-codering (0/1)

  • Variabele gender: vrouw = 0, man = 1.
  • Model: \hat{Y}=b0 + b1\cdot \text{gender}
    • b_0: gemiddeld salaris vrouwen.
    • b0+b1: gemiddeld salaris mannen.
    • b_1: verschil (man – vrouw).
    • T-waarde van b_1 ≅ t-test uit ANOVA.

Effect-codering (-1/+1)

  • gender: vrouw = -1, man = +1.
  • Model: \hat{Y}=b0 + b1\cdot \text{gender}
    • b_0: grand mean.
    • b_1: effect t.o.v. grand mean.
    • Vrouwen: -b1; Mannen: +b1.

Meervoudige regressie met dummy

  • Inclusie extra kwantitatieve predictor experience (jaren).
  • Zonder dummy: \hat{Y}=b0 + b1\cdot \text{years} (zelfde helling voor M/V).
  • Toevoegen dummy: \hat{Y}=b0 + b1\cdot \text{years} + b_2\cdot \text{gender}
    • b_1: gemiddelde salarisstijging per jaar ervaring.
    • b0: intercept vrouwen, b0+b_2: intercept mannen.
  • Interactie voor verschillende hellingen: \hat{Y}=b0 + b1\cdot \text{years} + b2\cdot \text{gender} + b3\cdot (\text{gender}\times\text{years})
    • gender als moderator → zie hoofdstuk 15.

Overzicht AN(C)OVA-terminologie

  • Simple regression: 1\;Y{quant} \times 1\;X{quant}.
  • ANOVA: 1\;Y{quant} \times 1\;X{qual}.
  • Factorial ANOVA: meerdere kwalitatieve X’s.
  • ANCOVA: 1\;Y{quant} \times (\ge1\;X{qual}) + 1\;X_{quant}.
  • Doel ANCOVA: corrigeert Y voor covariaat → groepsgemiddelden ge‐rescaled.

ANCOVA: aannames

  • Aannames ANOVA plus regressie-specifiek:
    • Lineaire relatie covariaat ↔ Y.
    • Parallelle regressielijnen per groepsniveau (geen interactie X_c \times A).
    • Normale residuen.
    • Gelijke varianties binnen/between groepen.

Doelen van ANCOVA

  • Powerverhoging: covariaat verklaart extra variantie → MS_{within} daalt.
  • Confounding: corrigeert voor verschil in covariaat tussen groepen.

Variantie–opsplitsing in ANCOVA

  • Totaal SS_{explained} wordt verdeeld in:
    • Factor A.
    • Covariaat X_c.

Type III (simultaneous)

  • SS(A\,|\,Xc) en SS(Xc\,|\,A) elk residueel na correctie.

Type I (stepwise)

  • Eerst SS(Xc), daarna SS(A\,|\,Xc).
  • Keuze beïnvloedt toebedeling variantie.

Rapportagetabellen (SPSS-output)

  • “Tests of Between-Subjects Effects” toont Type III of Type I.
  • In voorbeeld cholestrool:
    • F_{group}(2,41)=105.512,\;p<.001 na correctie voor pre.
    • R^2=.972.

Verschil ANOVA- vs ANCOVA-tabel

  • ANCOVA bevat extra rij ‘Covariate’ (df = 1).
  • Geadjusteerde SS{between} en SS{within} (df: N-a-1).

Visualisatie F-test

  • ANOVA: vergelijking gereduceerd (alleen intercept) vs full model (met factor).
  • ANCOVA: gereduceerd (intercept + covariaat) vs full model (factor toegevoegd).

Power winst: cholesterol-voorbeeld

  • ANOVA zonder covariaat: F=6.45, p=.004.
  • ANCOVA met covariaat: F=105.5, p<.001.
  • Groot verschil door verkleining residuele variantie.

Effectgroottes

  • Simpel: \eta^2 = \dfrac{SS{effect}}{SS{total}}.
  • Partial: \text{partial }\eta^2 = \dfrac{SS{effect}}{SS{effect}+SS_{error}}.
  • Partial \eta^2 ≥ simple \eta^2 (covariaat uit noemer gehaald).

Praktisch stappenplan rapportage ANCOVA

  1. Beschrijvende statistiek + geadjusteerde gemiddelden.
  2. Interpretatie ANCOVA‐output (F, p, effectgrootte).
  3. Post-hoc tests op adjusted means (Bonferroni/Tukey).

Voorbeeldzin:
“Na correctie voor pre-interventie cholesterol was er een significant verschil tussen interventies, F(2,41)=105.512,\;p<.001,\;\text{partial }\eta^2=.837.”

Waarschuwingen bij covariaten

  • Inclusie covariaat ≠ causale correctie; gevaar voor Lord’s paradox.
  • Lord’s paradox: tegenstrijdige conclusies tussen analyse op verschil-scores (ANOVA) en ANCOVA.
  • Oplossing: randomisatie (RCT) zodat factor ⟂ covariaat.
  • Simpson’s paradox: aggregatie kan correlatierichting omkeren.

Regressie vs AN(C)OVA – keuzegids

  • Gebruik:
    • Regressie: uitsluitend kwantitatieve voorspellers (dummy’s mogelijk).
    • ANOVA: uitsluitend kwalitatieve voorspellers.
    • ANCOVA: mix van beide, maar interesse ligt op groepsonderscheid na correctie.
  • In regressie is directe toets op elk dummy-coëfficiënt mogelijk; ANCOVA concentreert op gezamelijke factor-F.

Diagnostiek overzicht week 1–4

  • Outliers (3 SD, boxplot) → evt. log-transformatie.
  • Levene / boxplot → homoscedasticiteit.
  • Kolmogorov / residuplot → normaliteit.
  • Homogeneity of regression slopes (ANCOVA).
  • Check interacties & orthogonaliteit (contrasten).

Verdere studie week 4

  • Werkgroep & zelfstudie:
    • Comprehension Q’s Warner (2013 hfd. 12,17 / 2020-II hfd. 5,8).
    • SPSS-oefening ANCOVA.
    • Formatieve Canvas-quiz week 4.
  • Voor woensdag:
    • Input discussiepagina, antwoorden & voorbeelden.