lesson 3: invalid post-selection inference: why should we care?

0.0(0)
Studied by 0 people
call kaiCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/7

encourage image

There's no tags or description

Looks like no tags are added yet.

Last updated 7:53 AM on 5/28/26
Name
Mastery
Learn
Test
Matching
Spaced
Call with Kai

No analytics yet

Send a link to your students to track their progress

8 Terms

1
New cards

Take‑home message

Als je een model kiest op basis van dezelfde data waarop je daarna klassieke statistische toetsen uitvoert, dan zijn je p‑waarden, standaardfouten en conclusies NIET geldig.

- Gevolg: je Type I‑fout (vals-positieven) schiet omhoog — zelfs bij grote steekproeven.

- Modelselectie + klassieke inferentie = fout.

- Type I‑fout wordt sterk opgeblazen.

- De verdeling van de schatter is geen normale verdeling meer.

- Standaardfouten worden onderschat. Dit blijft fout, zelfs bij grote steekproeven.

- Oplossingen bestaan, maar zijn vaak complex.

- Data splitting is de eenvoudigste correcte aanpak.

2
New cards

invalid post‑selection inference

Wanneer je een model kiest op basis van dezelfde data waarop je daarna statistische toetsen uitvoert

3
New cards

Kernprobleem 1 — Modelselectie kiest variabelen die toevallig "significant" lijken

Omdat selectiecriteria zoals AIC of BIC modellen belonen die iets verklaren. Dus als een predictor toevallig een grote schatting heeft (door ruis), wordt hij sneller gekozen.

- Gevolg: Je selecteert X1 alleen wanneer zijn geschatte effect toevallig groot is. Dus de verdeling van de schatter is scheef en opgeblazen.

4
New cards

Kernprobleem 2 — De verdeling van de schatter is geen normale verdeling meer

Normaal geldt: OLS‑schattingen zijn asymptotisch normaal verdeeld.

- Maar na modelselectie:

- je hebt meerdere mogelijke modellen

- elk model heeft zijn eigen verdeling van de schatter

- de uiteindelijke verdeling is een mengsel van al die verdelingen

Dat mengsel is niet normaal, niet symmetrisch, en niet voorspelbaar.

-> Dus klassieke t‑testen zijn niet geldig.

5
New cards

Kernprobleem 3 — Type I‑fout blijft fout, zelfs bij grote n

- zonder modelselectie: Type I ≈ 5% (zoals het hoort)

- mét modelselectie: Type I ≈ 31% (!)

- En dat blijft zo, zelfs bij n = 4000.

-> Dus je kan niet zeggen: "maar mijn steekproef is groot, dus het is oké." Nee. Het blijft fout.

6
New cards

Data splitting

Je splitst de data:

- Training set → modelselectie

- Test set → hypothesen testen

+ Voordeel: volledig geldig

- Nadeel: minder power (want minder data in elke stap)

-> Data splitting voorkomt dat dezelfde data twee keer gebruikt wordt.

7
New cards

Simultaneous inference

Je doet inferentie over alle modellen die je overwogen hebt.

- Dat betekent: je controleert de foutkans over alle mogelijke modellen

je maakt simultane betrouwbaarheidsintervallen

- Dit is theoretisch sterk, maar complex.

8
New cards

conditional selective inference

Je doet inferentie gegeven het feit dat een model geselecteerd is.

Voorbeeld:

"We testen β1 alleen als X1 geselecteerd werd."

Dan conditioneer je op die selectie.

Dit is de moderne, elegante oplossing — maar technisch.