1/7
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Take‑home message
Als je een model kiest op basis van dezelfde data waarop je daarna klassieke statistische toetsen uitvoert, dan zijn je p‑waarden, standaardfouten en conclusies NIET geldig.
- Gevolg: je Type I‑fout (vals-positieven) schiet omhoog — zelfs bij grote steekproeven.
- Modelselectie + klassieke inferentie = fout.
- Type I‑fout wordt sterk opgeblazen.
- De verdeling van de schatter is geen normale verdeling meer.
- Standaardfouten worden onderschat. Dit blijft fout, zelfs bij grote steekproeven.
- Oplossingen bestaan, maar zijn vaak complex.
- Data splitting is de eenvoudigste correcte aanpak.
invalid post‑selection inference
Wanneer je een model kiest op basis van dezelfde data waarop je daarna statistische toetsen uitvoert
Kernprobleem 1 — Modelselectie kiest variabelen die toevallig "significant" lijken
Omdat selectiecriteria zoals AIC of BIC modellen belonen die iets verklaren. Dus als een predictor toevallig een grote schatting heeft (door ruis), wordt hij sneller gekozen.
- Gevolg: Je selecteert X1 alleen wanneer zijn geschatte effect toevallig groot is. Dus de verdeling van de schatter is scheef en opgeblazen.
Kernprobleem 2 — De verdeling van de schatter is geen normale verdeling meer
Normaal geldt: OLS‑schattingen zijn asymptotisch normaal verdeeld.
- Maar na modelselectie:
- je hebt meerdere mogelijke modellen
- elk model heeft zijn eigen verdeling van de schatter
- de uiteindelijke verdeling is een mengsel van al die verdelingen
Dat mengsel is niet normaal, niet symmetrisch, en niet voorspelbaar.
-> Dus klassieke t‑testen zijn niet geldig.
Kernprobleem 3 — Type I‑fout blijft fout, zelfs bij grote n
- zonder modelselectie: Type I ≈ 5% (zoals het hoort)
- mét modelselectie: Type I ≈ 31% (!)
- En dat blijft zo, zelfs bij n = 4000.
-> Dus je kan niet zeggen: "maar mijn steekproef is groot, dus het is oké." Nee. Het blijft fout.
Data splitting
Je splitst de data:
- Training set → modelselectie
- Test set → hypothesen testen
+ Voordeel: volledig geldig
- Nadeel: minder power (want minder data in elke stap)
-> Data splitting voorkomt dat dezelfde data twee keer gebruikt wordt.
Simultaneous inference
Je doet inferentie over alle modellen die je overwogen hebt.
- Dat betekent: je controleert de foutkans over alle mogelijke modellen
je maakt simultane betrouwbaarheidsintervallen
- Dit is theoretisch sterk, maar complex.
conditional selective inference
Je doet inferentie gegeven het feit dat een model geselecteerd is.
Voorbeeld:
"We testen β1 alleen als X1 geselecteerd werd."
Dan conditioneer je op die selectie.
Dit is de moderne, elegante oplossing — maar technisch.