Kwantitatieve data-analyse begrippen

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/196

There's no tags or description

Looks like no tags are added yet.

Last updated 11:50 PM on 6/5/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

197 Terms

New cards

Operationaliseren

concepten meetbaar maken

New cards

Intercept

b0 in GLM: waarde van de y-variabele als de x-variabele 0 is

New cards

model fit

hoe goed komt het model overeen met de geobserveerde data?  hoe kleiner de error van het model over alle personen heen, hoe beter de 'fit' van het model met de data

New cards

waarom kunnen we ervanuit gaan dat een schatting (statistiek) in een steekproef iets zegt over de eigenlijke parameter in de populatie? (obv 3 concepten)

steekproefverdeling
CLT
standaardfout

New cards

steekproefverdeling

sampling distribution: de mogelijke uitkomsten voor elke steekproef

→ kan je nooit observeren: wel wiskundig afleiden of stimuleren

= de verdeling van een statistiek over alle mogelijke steekproeven uit een populatie.

New cards

sampling error

wanneer het steekproefgemiddelde niet overeenkomt met de populatie -> het is owv de sampling error dat er een steekproefverdeling is

New cards

CLT

de centrale limietstelling garandeert ons dat bij een degelijke steekproefgrootte (groter dan 40) de steekproefverdeling van een statistiek bij benadering normaal verdeeld is rond de populatieparameter -> zorgt voor symmetrie

New cards

referentiewaarde (W)

de waarde waarvan we in de nulhypothese aannemen dat ze waar is

New cards

wat meet de teststatistiek?

hoeveel standaardfouten jouw resultaat van de referentiewaarde ligt.

New cards

p-waarde

de kans dat we een teststatistiek observeren die minstens zo extreem is als de geobserveerde teststatistiek als we aannemen dat de populatieparameter gelijk is aan de referentiewaarde => conditionele kans

New cards

logica statistische inferentie

we berekenen een statistiek in onze SP en weten dat dat maar één mogelijke uitkomst is van de hele SPverdelingen van die statistiek

-> we kunnen de SPverdeling niet observeren maar weten dankzij CLT wel dat hij normaal verdeeld is rond de populatieparameter

New cards

teststatistiek

een getal dat zegt hoe ver jouw steekproefresultaat verwijderd ligt van wat de nulhypothese verwacht

=> standaardiseert het verschil tussen de geobserveerde waarde en de referentiewaarde.

New cards

stappenplan om H0 te testen

Specificieer de H0
SPverdeling onder de H0 opstellen
Significantieniveau alpha bepalen
Statistiek berekenen obv SPdata

New cards

significantieniveau

bepaalt of we H0 verwerpen, gegeven de waarde van de SPstatistiek

=> berekenen wat de kans is dat we een SP trekken met een gemiddelde dat nog verder verwijderd is van het populatiegemiddelde dan wat we nu bekomen zijn

=> p-waarde: de kans dat je een teststatistiek observeert die minstens even extreem is dan de geobserveerde teststatistiek, als de H0 waar is

=> kans op type 1 fout

New cards

de p-waarde

de kans dat je een teststatistiek observeert die minstens even extreem is dan de geobserveerde teststatistiek, als de H0 waar is

New cards

type 1 fout

we verwerpen de H0, terwijl de H0 in realiteit waar is = false positive

-> door je H0 foutief te verwerpen geef je onterecht evidentie aan de alternatieve H

New cards

kans op type 1 fout

significantieniveau alpha. theoretische

New cards

kansverdeling

linkt waarden van steekproefstatistiek aan kansen via een teststatistiek

New cards

geoberserveerde statistiek

waarde van de steekproefstatistiek

New cards

specificiteit (1-alpha)

Wanneer de H0 correct is en deze ook niet wordt verworpen

New cards

type 2 fout

De kans dat de H0 fout is en deze niet wordt verworpen

New cards

power (sensiviteit, 1-beta)

Wanneer de H0 fout is en deze ook wordt verworpen

New cards

hoe controleren we op een T1 fout?

door een significantieniveau te definiëren

New cards

betekenis alpha is .05

Beschouwen we de 5% meest extreme waarden van de teststatistiek onder de H0 als evidentie tegen de H0 => alpha definieert zo de kritische waarde en het verwerpingsgebied in de steekproefverdeling

New cards

vraag bij hypothesetoetsingen

is de teststatistiek obv onze steekproef extreem genoeg om in het verwerpingsgebied te liggen dat wordt geïmpliceerd door alpha? => hoe groot is de kans om een teststatistiek te observeren die even extreem of extremer is dan de geobserveerde teststatistiek onder de H0? (=p-waarde)

New cards

statistische significantie

de kans dat we onder de H0 een teststatistiek observeren die minstens zo extreem is als de teststatistiek in onze SP is kleiner dan 100% -> het resultaat is waarschijnlijk geen toeval

New cards

p-waarde

de conditionele kans op de geobserveerde teststatistiek (of extremer) onder de H0

New cards

interpretatie p-waarde bij H0

we nemen aan dat H0 waar is: "als de H0 juist is, dan is de kans op deze teststatistiek (of extremer) gelijk aan p"

New cards

wanneer neemt de kans op het maken van een T1-fout toe?

Wanneer we meerdere tests doen -> family-wise-error

New cards

family-wise-error

de kans op minstens 1 T1-fout in het k aantal tests = 1-P(geen T1 fout in k aantal tests)

=> 1-alpha: de kans dat je de H0 niet verwerp als de H0 waar is

New cards

fishing expeditions/p-hacking

'zo maar dingen proberen en zien wat er uitkomt' + hoe meer tests je doet, hoe groter de kans dat je ergens een T1 fout maakt => belang van preregistratie van hypothesen en onderzoeksvragen!

New cards

type 2 fout

we verwerpen de H0 niet, hoewel de H0 eigenlijk fout is

New cards

hoe controleren we de kans op een type 2 fout?

power (1-beta)

New cards

power (1-beta)

de kans dat we de H0 verwerpen als de H0 fout is => bij een grotere SP is de power groter: de kans dat we de H0 correct verwerpen stijgt

New cards

waarvan is de power van een H0test afhankelijk?

effectgrootte onder de Ha
steekproefgrootte
significantieniveau alpha

New cards

effectgrootte

verschil tussen geobserveerde waarde van de SPstatistiek en de referentiewaarde (= verwachte waarde voor populatieparameter vermeldt in de H0) -> hoe groter de effectgrootte, joe groter het effect dat je onderzoekt en hoe groter de teller in de teststatistiek: hoe groter de teller in de teststatistiek, hoe groter de teststatistiek -> hoe groter de teststatistiek, hoe kleiner de p-waarde DUS: hoe groter het effect, joe gemakkelijker dat je de H0 kan verwerpen en dus minder kans op een T2 fout

New cards

standaarderror

de gemiddelde afwijking van alle gemiddeldes uit alle mogelijke SP uit de populatie -> minder afwijking bij een grotere SP => hoe kleiner de standaarderror, hoe kleiner de noemer van de teststatistiek

New cards

crud factor

in de SW is bijna alles met elkaar gecorreleerd

New cards

statistisch model

geven een wiskundige formalisering voor het conceptueel model in de vorm van een vergelijking, bestaande uit variabelen en parameters -> laten ons toe om het conceptueel model kwantitatief te modelleren, kwantitatieve voorspellingen te doen vanuit het model, en die kwantitatieve voorspellingen te testen in reële data

New cards

intercept

wat de waarde voor y zou zijn, als de OV (x) 0 is

New cards

wanneer gebruiken we een lineaire regressie analyse?

we hebben 1 continue AV variabele (y) en 1 of meerdere OV variabelen (x)

New cards

synoniem errors

residuelen

New cards

doel lineaire regressie

om statistisch te evalueren of je die 'messy' data toch kan modelleren (samenvatten) aan de hand van een rechte (= de regressielijn) => het voorspellen van Y adhv X

New cards

Hoe bepalen we welke regressielijn we gaan trekken?

OLS method: Method of least squares/kleinste kwadratenmethode => obv b0 en b1 (= regressiecoëfficiënt)

New cards

sum of squares

statistische variantiemaat voor fit en non-fit

New cards

total sum of squares

som van de gekwadrateerde afstanden van elke observatie tov het gemiddelde

-> alle variantie in Y

=> SST = SSM + SSR

New cards

sum of squares of the residual

som van de gekwadrateerde afstanden van elke inschatting van het model mét x1 tov de observatie y -> error van het regressiemodel

New cards

sum of squares of the model

som van de gekwadrateerde afstanden van elke inschatting van het model mét x1 tov het meest rudimentaire model

New cards

correlatiecoëfficiënt

de gestandaardiseerde regressiecoëfficiënt in enkelvoudige regressie

New cards

belangrijkste verschil lineaire regressie en correlatie

lineaire regressie maakt een theoretisch onderscheid tussen een predictor en een afhankelijke variabele (X voorspelt Y)
correlatie maakt GEEN theoretisch onderscheid tussen predictor en afhankelijke variebel (X en Y hangen samen

New cards

correlatie

gestandaardiseerde vorm van de covariantie

New cards

covariantie

geeft aan in welke mate twee variabelen 'gezamelijk variëren' -> kan positief als negatief: een negatieve waarde voor de covariantie geeft een negatief verband aan, een positieve covariantie geeft een positief verband aan => kruisproductensom/n-1

New cards

kruisproductensom

de afwijking van de x-waarde voor een onderzoekseenheid tov gemiddelde x-waarde

=> als we voor elke persoon in onze SP het kruisproduct van x en y berekenen, en dan al die kruisproducten optellen = kruisproductensom

MAAR: deze maat is gevoelig aan SPgrootte! oplossing: delen door n-1

New cards

interpretatie partiële regressiecoëfficiënten

voor elke eenheidsstijging in x1 stijgt y met b eenheden als alle andere variabelen constant worden gehouden => de stijging in y met b eenheden kan enkel worden toegewezen aan variabele x, niet de andere x'en want die worden constant gehouden

New cards

3e variabele

cofounding variabele

New cards

Suppression

er is een verband tussen X en Y, maar dat wordt onderdrukt door een derde variabele M -> we moeten dus controleren voor het effect van M, om het ware effect van X op Y te kennen => vergelijkbaar met covariaat van ANCOVA

New cards

spuriousness (schijnverband) er is een verband tussen X en Y

maar dit is een schijnverband en ligt eigenlijk aan de derde variabele M => er is dus geen écht verband tussen X en Y maar slechts een schijnverband

New cards

z-score

geeft weer hoeveel standaarddeviaties de SPstatistiek verwijderd ligt van de referentiewaarde W

New cards

nut/doel data

data als middel om theoretische vraag te beantwoorden

New cards

error

verschil tussen voorspelling van het model en de werkelijke waarde

New cards

waarop wordt statistische inferentie gebaseerd?

SPverdeling
CLT
standaarderror/fout

New cards

sampling error

in elke SP is er een fout op de schatting van de eigenlijke populatieparameter

New cards

centrale limietstelling

wanneer de SP volgoende groot is (>40) zal de SPverdeling normaal verdeeld zijn rond de werkelijke populatieparameter

New cards

waar is het gemiddelde van de SP verdeling gelijk aan?

aan de populatieparameter

New cards

standaardfout

de gemiddelde afwijking van alle SP gemiddeldes ten aanzien van het gemiddelde in de populatie -> is afhankelijk van de SPgrootte! -> hoe groter de SP

hoe kleiner de SE want dan is er weining spreiding is veel precisie (bij een grotere SP is de curve smaller en hoger)

New cards

hoe bepalen we hoe uitzonderlijk een teststatistiek is?

Via de p-waarde = geeft aan hoe uitzonderlijk onze observatie is
als de referentiewaarde juist is -> lage p-waarde: observatie is zeldzaam -> hoge p-waarde: observatie is niet zeldzaam

New cards

teststatistiek (z-score)

drukt uit hoeveel standaardfouten de observatie verwijderd ligt van de referentiewaarde

New cards

synoniem type 1 fout

vals positief: we zeggen dat de aanname niet correct is terwijl die in werkelijkheid wel correct is

New cards

synoniem type 2 fout

vals negatief: we verwerpen de H0 niet, terwijl die wel verworpen moet worden

New cards

wanneer stijgt de kans op een T1 fout?

Bij meer significantietesten => family-wise-error

-> oplossing: Bonferroni: gekozen alpha delen door het aantal toetsen

New cards

Hoe de kans op een T2 fout verkleinen?

grotere effectgrootte -> grotere teststatistiek -> kleinere p-waarde: meer kans om H0 ter verwerpen
grotere SP -> preciezere schatting - significantieniveau: hoger: power stijgt maar de kans op T1 fout ook

New cards

2 belangrijkste parameters

intercept
regressiecoëfficiënt

New cards

3 manieren om het model te evalueren

effect size: hoe sterk is de relatie?
model fit: hoe goed past het model? - statistische inferentie: is het toeval?

New cards

meetniveau AV

altijd continu

New cards

meetniveau OV

continu, binair categorisch of niet-binair categorisch

New cards

geschatte waarde van y

waarde die model voorspelt voor bepaalde observatie/case gegeven de waarde van x

New cards

Hoe weet je welke regressielijn je moet trekken?

dankzij OLS: ordinary least squares

idee: voor elke observatie berekenen we 1 error -> kwadrateren want kan positief of negatief zijn

=> OLS keist de regressielijn waarvoor de som van de gekwadrateerde errors zo klein mogelijk is -> regressielijn = lijn die gemiddeld het dichtste bij de geobserveerde data ligt

New cards

gestandaardiseerde regressiecoëfficiënt (beta)

als X met 1 standaarddeviatie toeneemt, verandert Y met beta standaarddeviaties -> niet schaalgevoelig

New cards

nulmodel

het meest eenvoudigste model dat we ons kunnen opstellen

New cards

wat doet de model fit?

nagaan of het regressiemodel Y beter voorspelt dan het nulmodel

New cards

R²

determinatiecoëfficiënt: geeft aan welk % van de variantie in Y wordt verklaard door regressiecoëfficiënt

-> tussen 0 en 1

=> berekend obv SPdata

=> proportie verklaarde variantie door het volledige model

New cards

t-waarde

(HT over populatieparamter) zegt hoe groot het geobserveerde SP-effect is in verhouding tot de onzekerheid

New cards

HT over model fit

is het regressiemodel met X een betere voorspeller van Y dan het nulmodel? -> f-test

New cards

f-test (HT over model fit)

verklaarde variantie in Y verklaard door met met X/onverklaarde variantie in Y door model met X

=> hoe groter F, hoe beter X als voorspeller van Y

=> toetst of verklaarde variantie significant beter is dan nulmodel

New cards

correlatie-analyse

onderzoekt hoe 2 variabelen samenhangen

New cards

covariantie

geeft aan in welke mate 2 variabelen samen afwijken van hun gemiddelde

maar: covariaat is afhankelijk van de meetschaal!

oplossing: correlatiecoëfficiënt: tussen -1 en 1 doel: nagaan of de samenhang die we zien in de SP ook bestaat in de populatie

New cards

assumpties lineaire regressie

zijn er outliers of influential cases?
is er multicollineariteit?
zijn de variabelen van het juiste type?
hebben de variabelen variantie?
zijn er geen ongewenste derde variabelen in het spel?
is de variantie van de errors homoscedastisch?
zijn de errors onafhankelijk?
zijn de errors normaal verdeeld?
is de relatie lineair en additief?

New cards

Outliers/influential cases

observaties die extreem ver van de andere observaties liggen -> kunnen voor vertekening zorgen (in de regressielijn)

New cards

hoe vindt je een outlier?

kijk naar de gestandaardiseerde residuelen (errors) van de observaties want die tonen hoe sterk een observatie afwijkt van andere observaties/regressielijn

=> hoge absolute waarde voor z: erg ver van regressielijn of ook: descriptieve analyses zoals frequentietabellen, is de waarde een mogelijk antwoord? en plot de data in histogrammen en scatterplots

New cards

normaal verdeelde (rond 0) residuelen

95% vd observaties tussen -1.96 en 1.96
99% vd observaties tussen -2.58 en 2.58
99.9% vd observaties tussen -3.29 en 3.29

=> als een waarde buiten deze grenzen valt, kan je ze overwegen te verwijderen

New cards

multicollineariteit

samenhang tussen verschillende voorspellers

=> perfecte collineariteit: er is een correlatie van 1 of -1 tussen 2 van de onafhankelijke variabelen

=> bij perfecte samenhang zouden de voorspellers exact hetzelfde zijn; dan kan je de unieke bijdrage van de predictoren niet nagaan

=> correlaties tussen OV best onder .80 of .90

New cards

problemen met sterke correlaties tussen onafhankelijke variabelen

standaardfout van regressie coëfficiënten is gebiased
weinig unieke variantie toe te schrijven aan een specifieke predictor
lage R
moeilijk om in te schatten welke variabelen relatief gezien belangrijker is

New cards

checken voor multicollineariteit

correlaties best onder .80 of .90
VIF: variance Inflation Factor
Tolerance 1/VIF

New cards

VIF

variance Inflation Factor: gaat na of een predictor een sterke lineaire relatie heeft met de andere predictoren

> 10: probleem,
gemiddelde VIF < 1: mogelijks probleem

New cards

Tolerance

1/VIF:

< 0.1: probleem
< 0.2 mogelijks probleem

New cards

dummy coding

je vormt de multicategorische variabele met k categorieën eerst om naar meerdere (k-1) binaire variabelen: elke dummy variabele heeft 2 categorieën

New cards

Stappenplan dummy coderen

tel het aantal categorieën van de categorische OV en trek er 1 van
creëer evenveel (dummy)variabelen als nodig bleken in stap 1
kies één categorische baseline
referentiecategorie
geef de referentiecategorie in elke dummyvariabele 0
voor je eerste dummy geef je code 1 aan de eerste categorie die je met de referentiecategorie wil vgl, de andere categorieën krijgen 0
doe dit voor alle dummyvariabelen
stop al deze dummyvariabelen tegelijkertijd in de regressieanalyse

New cards

Wat is de regressie met dummies eigenlijk?

per definitie een meervoudige regressie -> in de meeste gevallen ga je dus over naar een ANOVA-analyse = analyse technieken die kijken naar significante verschillen tussen groepen

New cards

wat doet een regressie-analyse

zoekt altijd naar samenhang: als er geen variantie is, kan je dat niet inschatten bv: invloed van taal op toets: als iedereen dezelfde taal spreekt kan je niet zien hoe taal een invloed kan hebben

=> geen variantie = geen regressie-analyse

100

New cards

schijnverbanden (spurious relationships)

de observatie van een lineaire relatie tussen x1 en y wil niet noodzakelijk zeggen dat x1 y lineair voorspelt. De relatie kan ook verklaard worden door het feit dat x1 gerelateerd is aan een niet-gemodelleerde variabele x2 die samenhangt met y en overlap in variantie van x1 en y veroorzaakt