H8: Enkelvoudige lineaire regressie

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/99

There's no tags or description

Looks like no tags are added yet.

Last updated 8:44 AM on 5/16/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

100 Terms

New cards

predicties van een bepaalde schatter opvragen

fitted (myLM )

New cards

residuen opvragen

residuals ( myLM)

New cards

betrouwbaarheidsinterval van ß0 en ß1 bekomen

confint (myLM , level = 0.95 )

New cards

coëfficiënten b0 en b1 van model op te vragen

coef (myLM )

New cards

alle output weergeven die berekend wordt bij de functie lm ( )

summary (myLM )

New cards

power berekenen van de toets van H0: ß1 = 0

pwr.r.test (n = , r= , sig.level = )

New cards

minimale steekproef berekenen om een power van ...% te garanderen bij de toets van H0: ß1 = 0

pwr.r.test (power = , r= , sig.level = )

New cards

Spreidingsdiagram en verband

Een spreidingsdiagram toont visueel de relatie tussen twee variabelen. In dit onderzoek bevestigt het diagram een stijgende, plausibel lineaire tendens tussen werkloosheidsduur en gezondheidsuitgaven.

New cards

Correlatiecoëfficiënt

De correlatiecoëfficiënt meet de sterkte en richting van het lineaire verband tussen twee variabelen (X en Y). Een positieve waarde wijst op een positief verband.

New cards

Regressielijn

De regressielijn is een lineaire vergelijking die de beste voorspelling geeft van Y op basis van X: Y = ß0 + ß1X. Hierin is ß0 het intercept en ß1 de regressiecoëfficiënt (helling).

New cards

Inductieve statistiek

Hoewel het steekproefresultaat positief verband toont, wil men generaliseren naar de populatie. Dit is inductieve statistiek: conclusies trekken over een populatie op basis van steekproefdata.

New cards

Enkelvoudig lineair regressiemodel

Het model Y = ß0 + ß1X + ε beschrijft Y als een lineaire functie van X plus een toevalsterm ε die de invloed van onbekende factoren en ruis opvangt.

New cards

Predictor en afhankelijke variabele

In regressie is X de onafhankelijke variabele (predictor) en Y de afhankelijke variabele (te verklaren variabele).

New cards

Toevalsterm ε

De term ε is een toevalsvariabele die de onverklaarde variatie in Y weergeeft. Voor eenzelfde X kan Y verschillend zijn door ε.

New cards

Regressiecoëfficiënt ß1

ß1 geeft de verandering in Y aan bij een één-eenheidstoename in X. Het bepaalt de helling van de regressielijn.

New cards

Formule voor individu i

Voor individu i met waarde xi van X geldt Yi = ß0 + ß1xi + εi.

New cards

Gauss-Markov assumpties

Voor het lineair model gelden deze assumpties over de fouten εi: (1) E(εi) = 0 (gemiddeld nul), (2) V(εi) = σ²ε (gelijke variantie), (3) COV(εi, εj) = 0 (onafhankelijke fouten).

New cards

Betekenis constante variantie (homoscedasticiteit)

De variantie van de fouten is voor alle individuen hetzelfde (σ²ε). Dit noemt men homoscedasticiteit.

New cards

Ongecorreleerde fouten

De fouten van verschillende individuen zijn niet met elkaar gecorreleerd: COV(εi, εj) = 0 voor i ≠ j.

New cards

Meervoudig versus enkelvoudig regressiemodel

Het enkelvoudig model heeft één predictor X, het meervoudig model meerdere predictors (X1, X2, ...).

New cards

Praktische voorbeelden van predictors

Leeftijd als predictor van lengte van een kind; SES van ouders als predictor van SES van kinderen.

New cards

Wat is de voorwaardelijke verwachting?

De voorwaardelijke verwachting E(Y|X = x) is de gemiddelde waarde van Y, gegeven dat X een specifieke waarde x aanneemt. Voorbeeld: gemiddelde gezondheidsuitgaven voor mensen die precies 10 maanden werkloos zijn.

New cards

Wat is het verschil tussen E(Y) en E(Y|X = x)?

E(Y) is de algemene verwachting van Y in de hele populatie, terwijl E(Y|X = x) de verwachting van Y is binnen de subgroep waarvoor X = x. E(Y|X = x) houdt dus rekening met extra informatie over X.

New cards

Wat is de betekenis van E(Yi | Xi = xi) in het lineair model?

Onder het lineair model geldt: E(Yi | Xi = xi) = ß0 + ß1xi. De voorwaardelijke verwachting is een deterministische (vaste) waarde en geen toevalsvariabele.

New cards

Waarom is E(Yi | Xi = xi) geen toevalsvariabele?

Omdat ß0, ß1 en xi vaste waarden zijn, en de verwachting van de foutterm εi gelijk is aan nul. Er zit dus geen toeval meer in deze verwachtingswaarde.

New cards

Wat is het verband tussen de voorwaardelijke verwachting en de regressielijn?

De regressielijn (Y = ß0 + ß1X) is grafisch de representatie van de voorwaardelijke verwachting E(Y|X = x); het is een rechte lijn die het gemiddelde verloop van Y beschrijft afhankelijk van X.

New cards

Voorbeeld van misleidende voorspelling via lineair model

Stel X = gewicht op 10 jaar, Y = gewicht op 30 jaar. Voorspellen van gewicht op 30 jaar o.b.v. 10 jaar kan individueel fout zijn, maar gemiddeld zullen de voorspellingen juist zijn.

New cards

Wat is het verschil tussen Yi en de voorspelling van Yi?

Het verschil tussen Yi en de voorspelling ß0 + ß1xi is de foutterm εi. Dit is gelijk aan het residu in de beschrijvende statistiek: de afwijking van de werkelijke waarde t.o.v. het voorspelde gemiddelde.

New cards

Wat is de voorwaardelijke variantie?

De voorwaardelijke variantie V(Y|X = x) is de spreiding van Y-waarden binnen de subgroep waarvoor X = x. Onder het lineair model is deze variantie constant: σ²ε.

New cards

Waarom is de voorwaardelijke variantie onafhankelijk van x?

In het lineair model is de variantie van de fout εi altijd σ²ε, en de variantie van ß0 + ß1xi is nul. De variantie van Y|X = x is dus altijd σ²ε, ongeacht de waarde van x.

New cards

Wat is de correlatiecoëfficiënt in het lineair model?

De correlatiecoëfficiënt ρ meet de sterkte en richting van het lineaire verband tussen X en Y. Hoe sterker het lineair verband, hoe dichter ρ bij -1 of +1 ligt.

New cards

Wat is het verband tussen correlatie en het lineair model?

Het lineair regressiemodel beschrijft een lineair verband tussen X en Y. De correlatiecoëfficiënt ρ kwantificeert hoe goed dit lineaire model de werkelijke samenhang benadert.

New cards

Welke drie parameters bevat het lineair regressiemodel?

(1) ß0 = intercept, (2) ß1 = regressiecoëfficiënt (helling), (3) σ²ε = variantie van de fouten. Deze parameters zijn meestal onbekend en moeten geschat worden uit een steekproef.

New cards

Waarom zijn de modelparameters meestal onbekend?

Omdat populaties vaak te groot zijn om volledig te meten. We gebruiken steekproeven om deze parameters te schatten met behulp van schatters.

New cards

Wat is een puntschatting?

Eén getalsmatige schatting van een onbekende parameter in een populatie, berekend op basis van een steekproef. Voorbeeld: b1 als schatting van ß1.

New cards

Wat is de puntschatting van ß1?

De beste schatter van ß1 is B1 (een toevalsvariabele); de realisatie daarvan in een steekproef is b1. Dus: b1 is de puntschatting van ß1.

New cards

Welke eigenschappen heeft de schatter B1?

De schatter B1 is zuiver (E(B1) = ß1) en efficiënt (minimale variantie onder alle lineaire en zuivere schatters).

New cards

Wat beïnvloedt de variantie van B1?

De variantie van B1 wordt kleiner bij: (1) kleine σ²ε (minder toeval), (2) grote steekproefgrootte n, (3) grote spreiding in X-waarden (grote s²X).

New cards

Wat is de standaardfout van B1?

De standaardfout is de wortel van de variantie van B1. Hoe kleiner de standaardfout, hoe betrouwbaarder de schatting.

New cards

Wat is de puntschatting van ß0?

De beste schatter is B0, de realisatie daarvan in een steekproef is b0. Dus b0 is de puntschatting van ß0.

New cards

Wat beïnvloedt de variantie van B0?

Net als bij B1: kleine σ²ε, grote steekproef n, en grote spreiding in X (s²X) zorgen voor kleinere variantie.

New cards

Waarom is een grote spreiding in X (s²X) belangrijk?

Een grotere spreiding in X (diverse waarden) maakt het makkelijker om een betrouwbare regressielijn te schatten, en verkleint de standaardfouten van b0 en b1.

New cards

Wat gebeurt er als X slechts in een kleine range varieert?

De schattingen van ß0 en ß1 worden onbetrouwbaarder (grotere standaardfouten), en het verband kan visueel minder duidelijk zijn.

New cards

Wat is een predictie ŷi?

Een schatting van de waarde van Yi op basis van het model: ŷi = b0 + b1xi. Wordt verkregen door ß0 en ß1 te vervangen door b0 en b1.

New cards

Wat is de variantie van ŷi?

De variantie van ŷi is kleiner als σ²ε klein is, n groot is, s²X groot is en xi dicht bij het steekproefgemiddelde x̄ ligt.

New cards

Waarom is een predictie betrouwbaarder dicht bij x̄?

Omdat de variantie van de voorspelling dan het kleinst is. Verder van het gemiddelde nemen onzekerheid en spreiding toe.

New cards

Kun je ook voorspellen voor nog niet geobserveerde x-waarden?

Ja, maar de voorspelling is dan minder betrouwbaar naarmate x verder van x̄ ligt. Dezelfde formule voor variantie geldt.

New cards

Wat is de puntschatting van σ²ε (variantie van fouten)?

De beste schatter is: σ²ε = SSRes / (n - 2), waarbij SSRes de som van gekwadrateerde residuen is. Deze schatter is zuiver en efficiënt.

New cards

Wat is SSRes?

SSRes (Sum of Squared Residuals) = ∑ (yi - ŷi)². Het is de totale onverklaarde variantie in Y door het model.

New cards

Wat is de puntschatting van de correlatiecoëfficiënt ρXY?

De beste schatter is RXY, met realisatie rXY in de steekproef. Dit is de Pearson-correlatiecoëfficiënt tussen X en Y.

New cards

Wat zijn de eigenschappen van RXY?

RXY is een zuivere en efficiënte schatter van ρXY, en wordt gebruikt om de sterkte van het lineair verband in een steekproef te meten.

New cards

Wat is een intervalschatting?

Een schatting van een parameter in de vorm van een interval, waarvan we met een bepaalde betrouwbaarheid (bijv. 95%) zeggen dat het de echte waarde bevat.

New cards

Welke extra aanname is nodig voor intervalschatting in regressie?

Niet alleen de Gauss-Markov assumpties, maar ook dat de fouten normaal verdeeld zijn.

New cards

Wat is het tweezijdig betrouwbaarheidsinterval voor ß1?

b1 ± t_{n-2, 1-α/2} × SE(b1)

New cards

Wanneer is het betrouwbaarheidsinterval voor ß1 smal?

Als de variantie van B1 (V(B1)) klein is → dus bij kleine σ²ε, grote n en grote spreiding in X.

New cards

Wat is het betrouwbaarheidsinterval voor ß0?

b0 ± t_{n-2, 1-α/2} × SE(b0)

New cards

Welke R-functie wordt gebruikt voor betrouwbaarheidsintervallen van ß0 en ß1?

confint()

New cards

Welke hypothesen worden getoetst in lineaire regressie?

H0: ß1 = 0 (geen lineair verband) versus H1: ß1 ≠ 0 (wel een lineair verband)

New cards

Wat betekent H0: ß1 = 0?

Er is geen lineair verband tussen X en Y in de populatie.

New cards

Hoe hangt ß1 samen met ρXY?

Als ß1 = 0, dan is ρXY = 0 en omgekeerd. Dus toetsen van ß1 = 0 is equivalent aan toetsen van ρXY = 0.

New cards

Welke voorwaarden zijn nodig voor toetsing van ß1?

1. Y is continu (interval of ratio) 2. X is interval, ratio of dummy 3. Fouten εi zijn normaal verdeeld of n is groot 4. Gauss-Markov assumpties zijn voldaan

New cards

Hoe controleer je normaliteit van de fouten?

Met een normale Q-Q plot (qqnorm() en qqline() in R).

New cards

Wat is de toetsingsgrootheid voor ß1?

t = (b1 - 0) / SE(b1) → deze volgt een t-verdeling met n - 2 vrijheidsgraden onder H0

New cards

Hoe interpreteer je de p-waarde bij de t-toets?

Als p < 0.05, verwerp H0 → er is een significant lineair verband in de populatie.

New cards

Hoe hangt de p-waarde samen met het betrouwbaarheidsinterval?

Als nul niet in het betrouwbaarheidsinterval voor ß1 ligt, is de p-waarde kleiner dan 0.05.

New cards

Wat is een alternatieve manier om het lineair model te toetsen?

Met de F-verdeling, via modelvergelijking of variantie-analyse.

New cards

Wat test de F-toets in regressie?

Of het regressiemodel met X als voorspeller een significant betere verklaring biedt dan een model zonder X.

New cards

Wat is de F-toets in lineaire regressie?

Een toets om te onderzoeken of een lineair model met een predictor (X) significant beter past bij de data dan een nulmodel zonder predictor.

New cards

Wat is het nulmodel in regressie?

Het regressiemodel waarin ß1 = 0; er is dus geen verband tussen X en Y. Het is een speciaal geval van het lineair model en wordt ook wel het "geneste model" genoemd.

New cards

Wat is de predictie van het nulmodel?

Ŷi = Ȳ (gemiddelde van alle Y-waarden); dit model voorspelt voor iedereen dezelfde waarde, ongeacht xi.

New cards

Wat is de fout bij het nulmodel?

εi = Yi - Ŷi = Yi - Ȳ; dit is het verschil tussen de werkelijke waarde en het gemiddelde.

New cards

Wat is de som van gekwadrateerde residuen bij het nulmodel?

SSRes0 = ∑(Yi - Ȳ)²

New cards

Wat is de som van gekwadrateerde residuen bij het lineair model?

SSRes1 = ∑(Yi - Ŷi)², waarbij Ŷi = b0 + b1xi

New cards

Waarom is SSRes1 kleiner dan SSRes0?

Omdat het lineair model meer parameters bevat en beter past bij de data dan het nulmodel. Meer flexibiliteit betekent kleinere fouten.

New cards

Wat wil het zeggen als SSRes0 - SSRes1 klein is?

Dat het lineair model niet veel beter is dan het nulmodel; het verschil kan aan toeval liggen → H0 (ß1 = 0) wordt niet verworpen.

New cards

Wat wil het zeggen als SSRes0 - SSRes1 groot is?

Dat het lineair model duidelijk beter is dan het nulmodel → het verband tussen X en Y is waarschijnlijk echt → H0 wordt verworpen.

New cards

Waarom kunnen we SSRes0 - SSRes1 niet rechtstreeks interpreteren?

Het verschil hangt af van de steekproefgrootte, meeteenheid en aantal parameters → daarom gebruiken we een genormaliseerde verhouding.

New cards

Welke vrijheidsgraden horen bij de modellen?

df0 = n - 1 (nulmodel), df1 = n - 2 (lineair model met één predictor)

New cards

Wat is de F-verhouding in regressieanalyse?

F = [(SSRes0 - SSRes1) / (df0 - df1)] / [SSRes1 / df1] = [(SSRes0 - SSRes1) / 1] / [SSRes1 / (n - 2)]

New cards

Welke verdeling volgt de F-verhouding onder H0?

Onder H0: ß1 = 0 volgt de F-verhouding een F-verdeling met 1 graad van vrijheid in de teller en (n - 2) in de noemer.

New cards

Wat betekent een grote waarde van F?

Dat het verschil tussen SSRes0 en SSRes1 te groot is om door toeval verklaard te worden → aanwijzing voor een significant lineair verband.

New cards

Hoe beslis je of F groot genoeg is om H0 te verwerpen?

Bereken de p-waarde: de kans dat F groter is dan de geobserveerde waarde als H0 waar is. Als p < 0.05 → verwerp H0.

New cards

Is de p-waarde bij de F-toets éénzijdig of tweezijdig?

Éénzijdig, want we kijken enkel naar grote waarden van F als aanwijzing dat het model beter is dan het nulmodel.

New cards

Geef een concreet voorbeeld van een F-toets.

Stel: we onderzoeken of werkloosheidsduur (X) een effect heeft op gezondheidsuitgaven (Y). - Nulmodel: voorspelt Ŷi = gemiddeld bedrag - Nulmodel: voorspelt Ŷi = gemiddeld bedrag - Lineair model: voorspelt Ŷi = b0 + b1 * werkloosheidsduur - Als de F-toets significant is, concludeer je dat werkloosheidsduur Y voorspelt.

New cards

Wat is de praktische betekenis van het verwerpen van H0 in een F-toets?

Dat het toevoegen van de predictor X de verklarende kracht van het model significant verhoogt; er is dus een lineair verband in de populatie.

New cards

Wat is de determinatiecoëfficiënt R²?

Een maat voor het aandeel van de totale variantie in Y dat verklaard wordt door het regressiemodel. Het wordt berekend als: R² = SSMod / SSTot = 1 - SSRes / SSTot waarbij: - SSMod = verklaarde variantie - SSRes = residuele variantie - SSTot = totale variantie van Y

New cards

waarbij: - SSMod = verklaarde variantie - SSRes = residuele variantie - SSTot = totale variantie van Y

New cards

- SSMod = verklaarde variantie - SSRes = residuele variantie - SSTot = totale variantie van Y

New cards

- SSRes = residuele variantie - SSTot = totale variantie van Y

New cards

- SSTot = totale variantie van Y

New cards

Wat betekent SSMod in regressie?

SSMod = ∑(ŷi - ȳ)². Dit is de som van de gekwadrateerde afwijkingen van de voorspelde waarden t.o.v. het gemiddelde. Het geeft aan hoeveel van de variantie verklaard wordt door het model.

New cards

Wat betekent SSRes in regressie?

SSRes = ∑(yi - ŷi)². Dit is de som van de gekwadrateerde afwijkingen tussen de werkelijke en de voorspelde waarde. Het geeft aan hoeveel het model niet verklaart.

New cards

Hoe interpreteer je een R² van 1?

Perfecte fit: SSRes = 0, alle punten liggen exact op de regressielijn. Het model verklaart 100% van de variantie in Y.

New cards

Hoe interpreteer je een R² van 0?

Het model verklaart niets van de variantie in Y; de regressielijn is horizontaal. Er is geen verband tussen X en Y.

New cards

Wat is de formule van de totale variantie in Y?

SSTot = SSMod + SSRes → De totale variantie wordt opgesplitst in verklaarde en onverklaarde variantie.

New cards

Wat zijn de grenzen van R²?

Altijd tussen 0 en 1: 0 ≤ R² ≤ 1 Omdat SSMod en SSRes beide sommen van kwadraten zijn en dus positief of nul.

New cards

Wat betekent een R² van 0.6?

Het model verklaart 60% van de variantie in de afhankelijke variabele Y.

New cards

Wat is het verschil tussen r² en R²?

Bij een lineair model met slechts één predictor geldt: R² = r² R² is dan het kwadraat van de Pearson-correlatiecoëfficiënt r. R² zegt niets over het teken van de relatie, r wel.

New cards

Wat is de aangepaste determinatiecoëfficiënt?

De adjusted R² corrigeert R² voor het aantal predictoren en de steekproefgrootte. Formule: Adjusted R² = 1 - [(1 - R²)(n - 1) / (n - p - 1)] waarbij: - n = steekproefgrootte - p = aantal predictoren

100

New cards

- p = aantal predictoren