1/196
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Operationaliseren
concepten meetbaar maken
Intercept
b0 in GLM: waarde van de y-variabele als de x-variabele 0 is
model fit
hoe goed komt het model overeen met de geobserveerde data? hoe kleiner de error van het model over alle personen heen, hoe beter de 'fit' van het model met de data
waarom kunnen we ervanuit gaan dat een schatting (statistiek) in een steekproef iets zegt over de eigenlijke parameter in de populatie? (obv 3 concepten)
steekproefverdeling
CLT
standaardfout
steekproefverdeling
sampling distribution: de mogelijke uitkomsten voor elke steekproef
→ kan je nooit observeren: wel wiskundig afleiden of stimuleren
= de verdeling van een statistiek over alle mogelijke steekproeven uit een populatie.
sampling error
wanneer het steekproefgemiddelde niet overeenkomt met de populatie -> het is owv de sampling error dat er een steekproefverdeling is
CLT
de centrale limietstelling garandeert ons dat bij een degelijke steekproefgrootte (groter dan 40) de steekproefverdeling van een statistiek bij benadering normaal verdeeld is rond de populatieparameter -> zorgt voor symmetrie
referentiewaarde (W)
de waarde waarvan we in de nulhypothese aannemen dat ze waar is
wat meet de teststatistiek?
hoeveel standaardfouten jouw resultaat van de referentiewaarde ligt.
p-waarde
de kans dat we een teststatistiek observeren die minstens zo extreem is als de geobserveerde teststatistiek als we aannemen dat de populatieparameter gelijk is aan de referentiewaarde => conditionele kans
logica statistische inferentie
we berekenen een statistiek in onze SP en weten dat dat maar één mogelijke uitkomst is van de hele SPverdelingen van die statistiek
-> we kunnen de SPverdeling niet observeren maar weten dankzij CLT wel dat hij normaal verdeeld is rond de populatieparameter
teststatistiek
een getal dat zegt hoe ver jouw steekproefresultaat verwijderd ligt van wat de nulhypothese verwacht
=> standaardiseert het verschil tussen de geobserveerde waarde en de referentiewaarde.
stappenplan om H0 te testen
Specificieer de H0
SPverdeling onder de H0 opstellen
Significantieniveau alpha bepalen
Statistiek berekenen obv SPdata
significantieniveau
bepaalt of we H0 verwerpen, gegeven de waarde van de SPstatistiek
=> berekenen wat de kans is dat we een SP trekken met een gemiddelde dat nog verder verwijderd is van het populatiegemiddelde dan wat we nu bekomen zijn
=> p-waarde: de kans dat je een teststatistiek observeert die minstens even extreem is dan de geobserveerde teststatistiek, als de H0 waar is
=> kans op type 1 fout
de p-waarde
de kans dat je een teststatistiek observeert die minstens even extreem is dan de geobserveerde teststatistiek, als de H0 waar is
type 1 fout
we verwerpen de H0, terwijl de H0 in realiteit waar is = false positive
-> door je H0 foutief te verwerpen geef je onterecht evidentie aan de alternatieve H
kans op type 1 fout
significantieniveau alpha. theoretische
kansverdeling
linkt waarden van steekproefstatistiek aan kansen via een teststatistiek
geoberserveerde statistiek
waarde van de steekproefstatistiek
specificiteit (1-alpha)
Wanneer de H0 correct is en deze ook niet wordt verworpen
type 2 fout
De kans dat de H0 fout is en deze niet wordt verworpen
power (sensiviteit, 1-beta)
Wanneer de H0 fout is en deze ook wordt verworpen
hoe controleren we op een T1 fout?
door een significantieniveau te definiëren
betekenis alpha is .05
Beschouwen we de 5% meest extreme waarden van de teststatistiek onder de H0 als evidentie tegen de H0 => alpha definieert zo de kritische waarde en het verwerpingsgebied in de steekproefverdeling
vraag bij hypothesetoetsingen
is de teststatistiek obv onze steekproef extreem genoeg om in het verwerpingsgebied te liggen dat wordt geïmpliceerd door alpha? => hoe groot is de kans om een teststatistiek te observeren die even extreem of extremer is dan de geobserveerde teststatistiek onder de H0? (=p-waarde)
statistische significantie
de kans dat we onder de H0 een teststatistiek observeren die minstens zo extreem is als de teststatistiek in onze SP is kleiner dan 100% -> het resultaat is waarschijnlijk geen toeval
p-waarde
de conditionele kans op de geobserveerde teststatistiek (of extremer) onder de H0
interpretatie p-waarde bij H0
we nemen aan dat H0 waar is: "als de H0 juist is, dan is de kans op deze teststatistiek (of extremer) gelijk aan p"
wanneer neemt de kans op het maken van een T1-fout toe?
Wanneer we meerdere tests doen -> family-wise-error
family-wise-error
de kans op minstens 1 T1-fout in het k aantal tests = 1-P(geen T1 fout in k aantal tests)
=> 1-alpha: de kans dat je de H0 niet verwerp als de H0 waar is
fishing expeditions/p-hacking
'zo maar dingen proberen en zien wat er uitkomt' + hoe meer tests je doet, hoe groter de kans dat je ergens een T1 fout maakt => belang van preregistratie van hypothesen en onderzoeksvragen!
type 2 fout
we verwerpen de H0 niet, hoewel de H0 eigenlijk fout is
hoe controleren we de kans op een type 2 fout?
power (1-beta)
power (1-beta)
de kans dat we de H0 verwerpen als de H0 fout is => bij een grotere SP is de power groter: de kans dat we de H0 correct verwerpen stijgt
waarvan is de power van een H0test afhankelijk?
effectgrootte onder de Ha
steekproefgrootte
significantieniveau alpha
effectgrootte
verschil tussen geobserveerde waarde van de SPstatistiek en de referentiewaarde (= verwachte waarde voor populatieparameter vermeldt in de H0) -> hoe groter de effectgrootte, joe groter het effect dat je onderzoekt en hoe groter de teller in de teststatistiek: hoe groter de teller in de teststatistiek, hoe groter de teststatistiek -> hoe groter de teststatistiek, hoe kleiner de p-waarde DUS: hoe groter het effect, joe gemakkelijker dat je de H0 kan verwerpen en dus minder kans op een T2 fout
standaarderror
de gemiddelde afwijking van alle gemiddeldes uit alle mogelijke SP uit de populatie -> minder afwijking bij een grotere SP => hoe kleiner de standaarderror, hoe kleiner de noemer van de teststatistiek
crud factor
in de SW is bijna alles met elkaar gecorreleerd
statistisch model
geven een wiskundige formalisering voor het conceptueel model in de vorm van een vergelijking, bestaande uit variabelen en parameters -> laten ons toe om het conceptueel model kwantitatief te modelleren, kwantitatieve voorspellingen te doen vanuit het model, en die kwantitatieve voorspellingen te testen in reële data
intercept
wat de waarde voor y zou zijn, als de OV (x) 0 is
wanneer gebruiken we een lineaire regressie analyse?
we hebben 1 continue AV variabele (y) en 1 of meerdere OV variabelen (x)
synoniem errors
residuelen
doel lineaire regressie
om statistisch te evalueren of je die 'messy' data toch kan modelleren (samenvatten) aan de hand van een rechte (= de regressielijn) => het voorspellen van Y adhv X
Hoe bepalen we welke regressielijn we gaan trekken?
OLS method: Method of least squares/kleinste kwadratenmethode => obv b0 en b1 (= regressiecoëfficiënt)
sum of squares
statistische variantiemaat voor fit en non-fit
total sum of squares
som van de gekwadrateerde afstanden van elke observatie tov het gemiddelde
-> alle variantie in Y
=> SST = SSM + SSR
sum of squares of the residual
som van de gekwadrateerde afstanden van elke inschatting van het model mét x1 tov de observatie y -> error van het regressiemodel
sum of squares of the model
som van de gekwadrateerde afstanden van elke inschatting van het model mét x1 tov het meest rudimentaire model
correlatiecoëfficiënt
de gestandaardiseerde regressiecoëfficiënt in enkelvoudige regressie
belangrijkste verschil lineaire regressie en correlatie
lineaire regressie maakt een theoretisch onderscheid tussen een predictor en een afhankelijke variabele (X voorspelt Y)
correlatie maakt GEEN theoretisch onderscheid tussen predictor en afhankelijke variebel (X en Y hangen samen
correlatie
gestandaardiseerde vorm van de covariantie
covariantie
geeft aan in welke mate twee variabelen 'gezamelijk variëren' -> kan positief als negatief: een negatieve waarde voor de covariantie geeft een negatief verband aan, een positieve covariantie geeft een positief verband aan => kruisproductensom/n-1
kruisproductensom
de afwijking van de x-waarde voor een onderzoekseenheid tov gemiddelde x-waarde
=> als we voor elke persoon in onze SP het kruisproduct van x en y berekenen, en dan al die kruisproducten optellen = kruisproductensom
MAAR: deze maat is gevoelig aan SPgrootte! oplossing: delen door n-1
interpretatie partiële regressiecoëfficiënten
voor elke eenheidsstijging in x1 stijgt y met b eenheden als alle andere variabelen constant worden gehouden => de stijging in y met b eenheden kan enkel worden toegewezen aan variabele x, niet de andere x'en want die worden constant gehouden
3e variabele
cofounding variabele
Suppression
er is een verband tussen X en Y, maar dat wordt onderdrukt door een derde variabele M -> we moeten dus controleren voor het effect van M, om het ware effect van X op Y te kennen => vergelijkbaar met covariaat van ANCOVA
z-score
geeft weer hoeveel standaarddeviaties de SPstatistiek verwijderd ligt van de referentiewaarde W
nut/doel data
data als middel om theoretische vraag te beantwoorden
error
verschil tussen voorspelling van het model en de werkelijke waarde
waarop wordt statistische inferentie gebaseerd?
SPverdeling
CLT
standaarderror/fout
sampling error
in elke SP is er een fout op de schatting van de eigenlijke populatieparameter
centrale limietstelling
wanneer de SP volgoende groot is (>40) zal de SPverdeling normaal verdeeld zijn rond de werkelijke populatieparameter
waar is het gemiddelde van de SP verdeling gelijk aan?
aan de populatieparameter
standaardfout
de gemiddelde afwijking van alle SP gemiddeldes ten aanzien van het gemiddelde in de populatie -> is afhankelijk van de SPgrootte! -> hoe groter de SP
hoe kleiner de SE want dan is er weining spreiding is veel precisie (bij een grotere SP is de curve smaller en hoger)
hoe bepalen we hoe uitzonderlijk een teststatistiek is?
Via de p-waarde = geeft aan hoe uitzonderlijk onze observatie is
als de referentiewaarde juist is -> lage p-waarde: observatie is zeldzaam -> hoge p-waarde: observatie is niet zeldzaam
teststatistiek (z-score)
drukt uit hoeveel standaardfouten de observatie verwijderd ligt van de referentiewaarde
synoniem type 1 fout
vals positief: we zeggen dat de aanname niet correct is terwijl die in werkelijkheid wel correct is
synoniem type 2 fout
vals negatief: we verwerpen de H0 niet, terwijl die wel verworpen moet worden
wanneer stijgt de kans op een T1 fout?
Bij meer significantietesten => family-wise-error
-> oplossing: Bonferroni: gekozen alpha delen door het aantal toetsen
Hoe de kans op een T2 fout verkleinen?
grotere effectgrootte -> grotere teststatistiek -> kleinere p-waarde: meer kans om H0 ter verwerpen
grotere SP -> preciezere schatting - significantieniveau: hoger: power stijgt maar de kans op T1 fout ook
intercept
regressiecoëfficiënt
effect size: hoe sterk is de relatie?
model fit: hoe goed past het model? - statistische inferentie: is het toeval?
dankzij OLS: ordinary least squares
idee: voor elke observatie berekenen we 1 error -> kwadrateren want kan positief of negatief zijn
=> OLS keist de regressielijn waarvoor de som van de gekwadrateerde errors zo klein mogelijk is -> regressielijn = lijn die gemiddeld het dichtste bij de geobserveerde data ligt
determinatiecoëfficiënt: geeft aan welk % van de variantie in Y wordt verklaard door regressiecoëfficiënt
-> tussen 0 en 1
=> berekend obv SPdata
=> proportie verklaarde variantie door het volledige model
verklaarde variantie in Y verklaard door met met X/onverklaarde variantie in Y door model met X
=> hoe groter F, hoe beter X als voorspeller van Y
=> toetst of verklaarde variantie significant beter is dan nulmodel
geeft aan in welke mate 2 variabelen samen afwijken van hun gemiddelde
maar: covariaat is afhankelijk van de meetschaal!
oplossing: correlatiecoëfficiënt: tussen -1 en 1 doel: nagaan of de samenhang die we zien in de SP ook bestaat in de populatie
zijn er outliers of influential cases?
is er multicollineariteit?
zijn de variabelen van het juiste type?
hebben de variabelen variantie?
zijn er geen ongewenste derde variabelen in het spel?
is de variantie van de errors homoscedastisch?
zijn de errors onafhankelijk?
zijn de errors normaal verdeeld?
is de relatie lineair en additief?
kijk naar de gestandaardiseerde residuelen (errors) van de observaties want die tonen hoe sterk een observatie afwijkt van andere observaties/regressielijn
=> hoge absolute waarde voor z: erg ver van regressielijn of ook: descriptieve analyses zoals frequentietabellen, is de waarde een mogelijk antwoord? en plot de data in histogrammen en scatterplots
95% vd observaties tussen -1.96 en 1.96
99% vd observaties tussen -2.58 en 2.58
99.9% vd observaties tussen -3.29 en 3.29
=> als een waarde buiten deze grenzen valt, kan je ze overwegen te verwijderen
samenhang tussen verschillende voorspellers
=> perfecte collineariteit: er is een correlatie van 1 of -1 tussen 2 van de onafhankelijke variabelen
=> bij perfecte samenhang zouden de voorspellers exact hetzelfde zijn; dan kan je de unieke bijdrage van de predictoren niet nagaan
=> correlaties tussen OV best onder .80 of .90
standaardfout van regressie coëfficiënten is gebiased
weinig unieke variantie toe te schrijven aan een specifieke predictor
lage R
moeilijk om in te schatten welke variabelen relatief gezien belangrijker is
checken voor multicollineariteit
correlaties best onder .80 of .90
VIF: variance Inflation Factor
Tolerance 1/VIF
VIF
variance Inflation Factor: gaat na of een predictor een sterke lineaire relatie heeft met de andere predictoren
> 10: probleem,
gemiddelde VIF < 1: mogelijks probleem
Tolerance
1/VIF:
< 0.1: probleem
< 0.2 mogelijks probleem
Stappenplan dummy coderen
tel het aantal categorieën van de categorische OV en trek er 1 van
creëer evenveel (dummy)variabelen als nodig bleken in stap 1
kies één categorische baseline
referentiecategorie
geef de referentiecategorie in elke dummyvariabele 0
voor je eerste dummy geef je code 1 aan de eerste categorie die je met de referentiecategorie wil vgl, de andere categorieën krijgen 0
doe dit voor alle dummyvariabelen
stop al deze dummyvariabelen tegelijkertijd in de regressieanalyse
wat doet een regressie-analyse
zoekt altijd naar samenhang: als er geen variantie is, kan je dat niet inschatten bv: invloed van taal op toets: als iedereen dezelfde taal spreekt kan je niet zien hoe taal een invloed kan hebben
=> geen variantie = geen regressie-analyse