Kwantitatieve data-analyse begrippen

0.0(0)
Studied by 0 people
call kaiCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/196

encourage image

There's no tags or description

Looks like no tags are added yet.

Last updated 11:50 PM on 6/5/26
Name
Mastery
Learn
Test
Matching
Spaced
Call with Kai

No analytics yet

Send a link to your students to track their progress

197 Terms

1
New cards

Operationaliseren

concepten meetbaar maken

2
New cards

Intercept

b0 in GLM: waarde van de y-variabele als de x-variabele 0 is

3
New cards

model fit

hoe goed komt het model overeen met de geobserveerde data?  hoe kleiner de error van het model over alle personen heen, hoe beter de 'fit' van het model met de data

4
New cards

waarom kunnen we ervanuit gaan dat een schatting (statistiek) in een steekproef iets zegt over de eigenlijke parameter in de populatie? (obv 3 concepten)

  1. steekproefverdeling

  2. CLT

  3. standaardfout

5
New cards

steekproefverdeling

sampling distribution: de mogelijke uitkomsten voor elke steekproef

→ kan je nooit observeren: wel wiskundig afleiden of stimuleren

= de verdeling van een statistiek over alle mogelijke steekproeven uit een populatie.

6
New cards

sampling error

wanneer het steekproefgemiddelde niet overeenkomt met de populatie -> het is owv de sampling error dat er een steekproefverdeling is

7
New cards

CLT

de centrale limietstelling garandeert ons dat bij een degelijke steekproefgrootte (groter dan 40) de steekproefverdeling van een statistiek bij benadering normaal verdeeld is rond de populatieparameter -> zorgt voor symmetrie

8
New cards

referentiewaarde (W)

de waarde waarvan we in de nulhypothese aannemen dat ze waar is

9
New cards

wat meet de teststatistiek?

hoeveel standaardfouten jouw resultaat van de referentiewaarde ligt.

10
New cards

p-waarde

de kans dat we een teststatistiek observeren die minstens zo extreem is als de geobserveerde teststatistiek als we aannemen dat de populatieparameter gelijk is aan de referentiewaarde => conditionele kans

11
New cards

logica statistische inferentie

we berekenen een statistiek in onze SP en weten dat dat maar één mogelijke uitkomst is van de hele SPverdelingen van die statistiek

-> we kunnen de SPverdeling niet observeren maar weten dankzij CLT wel dat hij normaal verdeeld is rond de populatieparameter

12
New cards

teststatistiek

een getal dat zegt hoe ver jouw steekproefresultaat verwijderd ligt van wat de nulhypothese verwacht

=> standaardiseert het verschil tussen de geobserveerde waarde en de referentiewaarde.

13
New cards

stappenplan om H0 te testen

  1. Specificieer de H0

  2. SPverdeling onder de H0 opstellen

  3. Significantieniveau alpha bepalen

  4. Statistiek berekenen obv SPdata

14
New cards

significantieniveau

bepaalt of we H0 verwerpen, gegeven de waarde van de SPstatistiek

=> berekenen wat de kans is dat we een SP trekken met een gemiddelde dat nog verder verwijderd is van het populatiegemiddelde dan wat we nu bekomen zijn

=> p-waarde: de kans dat je een teststatistiek observeert die minstens even extreem is dan de geobserveerde teststatistiek, als de H0 waar is

=> kans op type 1 fout

15
New cards

de p-waarde

de kans dat je een teststatistiek observeert die minstens even extreem is dan de geobserveerde teststatistiek, als de H0 waar is

16
New cards

type 1 fout

we verwerpen de H0, terwijl de H0 in realiteit waar is = false positive

-> door je H0 foutief te verwerpen geef je onterecht evidentie aan de alternatieve H

17
New cards

kans op type 1 fout

significantieniveau alpha. theoretische

18
New cards

kansverdeling

linkt waarden van steekproefstatistiek aan kansen via een teststatistiek

19
New cards

geoberserveerde statistiek

waarde van de steekproefstatistiek

20
New cards

specificiteit (1-alpha)

Wanneer de H0 correct is en deze ook niet wordt verworpen

21
New cards

type 2 fout

De kans dat de H0 fout is en deze niet wordt verworpen

22
New cards

power (sensiviteit, 1-beta)

Wanneer de H0 fout is en deze ook wordt verworpen

23
New cards

hoe controleren we op een T1 fout?

door een significantieniveau te definiëren

24
New cards

betekenis alpha is .05

Beschouwen we de 5% meest extreme waarden van de teststatistiek onder de H0 als evidentie tegen de H0 => alpha definieert zo de kritische waarde en het verwerpingsgebied in de steekproefverdeling

25
New cards

vraag bij hypothesetoetsingen

is de teststatistiek obv onze steekproef extreem genoeg om in het verwerpingsgebied te liggen dat wordt geïmpliceerd door alpha? => hoe groot is de kans om een teststatistiek te observeren die even extreem of extremer is dan de geobserveerde teststatistiek onder de H0? (=p-waarde)

26
New cards

statistische significantie

de kans dat we onder de H0 een teststatistiek observeren die minstens zo extreem is als de teststatistiek in onze SP is kleiner dan 100% -> het resultaat is waarschijnlijk geen toeval

27
New cards

p-waarde

de conditionele kans op de geobserveerde teststatistiek (of extremer) onder de H0

28
New cards

interpretatie p-waarde bij H0

we nemen aan dat H0 waar is: "als de H0 juist is, dan is de kans op deze teststatistiek (of extremer) gelijk aan p"

29
New cards

wanneer neemt de kans op het maken van een T1-fout toe?

Wanneer we meerdere tests doen -> family-wise-error

30
New cards

family-wise-error

de kans op minstens 1 T1-fout in het k aantal tests = 1-P(geen T1 fout in k aantal tests)

=> 1-alpha: de kans dat je de H0 niet verwerp als de H0 waar is

31
New cards

fishing expeditions/p-hacking

'zo maar dingen proberen en zien wat er uitkomt' + hoe meer tests je doet, hoe groter de kans dat je ergens een T1 fout maakt => belang van preregistratie van hypothesen en onderzoeksvragen!

32
New cards

type 2 fout

we verwerpen de H0 niet, hoewel de H0 eigenlijk fout is

33
New cards

hoe controleren we de kans op een type 2 fout?

power (1-beta)

34
New cards

power (1-beta)

de kans dat we de H0 verwerpen als de H0 fout is => bij een grotere SP is de power groter: de kans dat we de H0 correct verwerpen stijgt

35
New cards

waarvan is de power van een H0test afhankelijk?

  • effectgrootte onder de Ha

  • steekproefgrootte

  • significantieniveau alpha

36
New cards

effectgrootte

verschil tussen geobserveerde waarde van de SPstatistiek en de referentiewaarde (= verwachte waarde voor populatieparameter vermeldt in de H0) -> hoe groter de effectgrootte, joe groter het effect dat je onderzoekt en hoe groter de teller in de teststatistiek: hoe groter de teller in de teststatistiek, hoe groter de teststatistiek -> hoe groter de teststatistiek, hoe kleiner de p-waarde DUS: hoe groter het effect, joe gemakkelijker dat je de H0 kan verwerpen en dus minder kans op een T2 fout

37
New cards

standaarderror

de gemiddelde afwijking van alle gemiddeldes uit alle mogelijke SP uit de populatie -> minder afwijking bij een grotere SP => hoe kleiner de standaarderror, hoe kleiner de noemer van de teststatistiek

38
New cards

crud factor

in de SW is bijna alles met elkaar gecorreleerd

39
New cards

statistisch model

geven een wiskundige formalisering voor het conceptueel model in de vorm van een vergelijking, bestaande uit variabelen en parameters -> laten ons toe om het conceptueel model kwantitatief te modelleren, kwantitatieve voorspellingen te doen vanuit het model, en die kwantitatieve voorspellingen te testen in reële data

40
New cards

intercept

wat de waarde voor y zou zijn, als de OV (x) 0 is

41
New cards

wanneer gebruiken we een lineaire regressie analyse?

we hebben 1 continue AV variabele (y) en 1 of meerdere OV variabelen (x)

42
New cards

synoniem errors

residuelen

43
New cards

doel lineaire regressie

om statistisch te evalueren of je die 'messy' data toch kan modelleren (samenvatten) aan de hand van een rechte (= de regressielijn) => het voorspellen van Y adhv X

44
New cards

Hoe bepalen we welke regressielijn we gaan trekken?

OLS method: Method of least squares/kleinste kwadratenmethode => obv b0 en b1 (= regressiecoëfficiënt)

45
New cards

sum of squares

statistische variantiemaat voor fit en non-fit

46
New cards

total sum of squares

som van de gekwadrateerde afstanden van elke observatie tov het gemiddelde

-> alle variantie in Y

=> SST = SSM + SSR


47
New cards

sum of squares of the residual

som van de gekwadrateerde afstanden van elke inschatting van het model mét x1 tov de observatie y -> error van het regressiemodel

48
New cards

sum of squares of the model

som van de gekwadrateerde afstanden van elke inschatting van het model mét x1 tov het meest rudimentaire model

49
New cards

correlatiecoëfficiënt

de gestandaardiseerde regressiecoëfficiënt in enkelvoudige regressie

50
New cards

belangrijkste verschil lineaire regressie en correlatie

  • lineaire regressie maakt een theoretisch onderscheid tussen een predictor en een afhankelijke variabele (X voorspelt Y)

  • correlatie maakt GEEN theoretisch onderscheid tussen predictor en afhankelijke variebel (X en Y hangen samen

51
New cards

correlatie

gestandaardiseerde vorm van de covariantie

52
New cards

covariantie

geeft aan in welke mate twee variabelen 'gezamelijk variëren' -> kan positief als negatief: een negatieve waarde voor de covariantie geeft een negatief verband aan, een positieve covariantie geeft een positief verband aan => kruisproductensom/n-1

53
New cards

kruisproductensom

de afwijking van de x-waarde voor een onderzoekseenheid tov gemiddelde x-waarde

=> als we voor elke persoon in onze SP het kruisproduct van x en y berekenen, en dan al die kruisproducten optellen = kruisproductensom

MAAR: deze maat is gevoelig aan SPgrootte! oplossing: delen door n-1

54
New cards

interpretatie partiële regressiecoëfficiënten

voor elke eenheidsstijging in x1 stijgt y met b eenheden als alle andere variabelen constant worden gehouden => de stijging in y met b eenheden kan enkel worden toegewezen aan variabele x, niet de andere x'en want die worden constant gehouden

55
New cards

3e variabele

cofounding variabele

56
New cards

Suppression

er is een verband tussen X en Y, maar dat wordt onderdrukt door een derde variabele M -> we moeten dus controleren voor het effect van M, om het ware effect van X op Y te kennen => vergelijkbaar met covariaat van ANCOVA

57
New cards
spuriousness (schijnverband) er is een verband tussen X en Y
maar dit is een schijnverband en ligt eigenlijk aan de derde variabele M => er is dus geen écht verband tussen X en Y maar slechts een schijnverband
58
New cards

z-score

geeft weer hoeveel standaarddeviaties de SPstatistiek verwijderd ligt van de referentiewaarde W

59
New cards

nut/doel data

data als middel om theoretische vraag te beantwoorden

60
New cards

error

verschil tussen voorspelling van het model en de werkelijke waarde

61
New cards

waarop wordt statistische inferentie gebaseerd?

  • SPverdeling

  • CLT

  • standaarderror/fout

62
New cards

sampling error

in elke SP is er een fout op de schatting van de eigenlijke populatieparameter

63
New cards

centrale limietstelling

wanneer de SP volgoende groot is (>40) zal de SPverdeling normaal verdeeld zijn rond de werkelijke populatieparameter

64
New cards

waar is het gemiddelde van de SP verdeling gelijk aan?

aan de populatieparameter

65
New cards

standaardfout

de gemiddelde afwijking van alle SP gemiddeldes ten aanzien van het gemiddelde in de populatie -> is afhankelijk van de SPgrootte! -> hoe groter de SP

hoe kleiner de SE want dan is er weining spreiding is veel precisie (bij een grotere SP is de curve smaller en hoger)

66
New cards

hoe bepalen we hoe uitzonderlijk een teststatistiek is?

  • Via de p-waarde = geeft aan hoe uitzonderlijk onze observatie is

  • als de referentiewaarde juist is -> lage p-waarde: observatie is zeldzaam -> hoge p-waarde: observatie is niet zeldzaam

67
New cards

teststatistiek (z-score)

drukt uit hoeveel standaardfouten de observatie verwijderd ligt van de referentiewaarde

68
New cards

synoniem type 1 fout

vals positief: we zeggen dat de aanname niet correct is terwijl die in werkelijkheid wel correct is

69
New cards

synoniem type 2 fout

vals negatief: we verwerpen de H0 niet, terwijl die wel verworpen moet worden

70
New cards

wanneer stijgt de kans op een T1 fout?

Bij meer significantietesten => family-wise-error

-> oplossing: Bonferroni: gekozen alpha delen door het aantal toetsen

71
New cards

Hoe de kans op een T2 fout verkleinen?

  • grotere effectgrootte -> grotere teststatistiek -> kleinere p-waarde: meer kans om H0 ter verwerpen

  • grotere SP -> preciezere schatting - significantieniveau: hoger: power stijgt maar de kans op T1 fout ook

72
New cards
2 belangrijkste parameters
  • intercept

  • regressiecoëfficiënt

73
New cards
3 manieren om het model te evalueren
  1. effect size: hoe sterk is de relatie?

  2. model fit: hoe goed past het model? - statistische inferentie: is het toeval?

74
New cards
meetniveau AV
altijd continu
75
New cards
meetniveau OV
continu, binair categorisch of niet-binair categorisch
76
New cards
geschatte waarde van y
waarde die model voorspelt voor bepaalde observatie/case gegeven de waarde van x
77
New cards
Hoe weet je welke regressielijn je moet trekken?

dankzij OLS: ordinary least squares

idee: voor elke observatie berekenen we 1 error -> kwadrateren want kan positief of negatief zijn

=> OLS keist de regressielijn waarvoor de som van de gekwadrateerde errors zo klein mogelijk is -> regressielijn = lijn die gemiddeld het dichtste bij de geobserveerde data ligt

78
New cards
gestandaardiseerde regressiecoëfficiënt (beta)
als X met 1 standaarddeviatie toeneemt, verandert Y met beta standaarddeviaties -> niet schaalgevoelig
79
New cards
nulmodel
het meest eenvoudigste model dat we ons kunnen opstellen
80
New cards
wat doet de model fit?
nagaan of het regressiemodel Y beter voorspelt dan het nulmodel
81
New cards

determinatiecoëfficiënt: geeft aan welk % van de variantie in Y wordt verklaard door regressiecoëfficiënt

-> tussen 0 en 1

=> berekend obv SPdata

=> proportie verklaarde variantie door het volledige model

82
New cards
t-waarde
(HT over populatieparamter) zegt hoe groot het geobserveerde SP-effect is in verhouding tot de onzekerheid
83
New cards
HT over model fit
is het regressiemodel met X een betere voorspeller van Y dan het nulmodel? -> f-test
84
New cards
f-test (HT over model fit)

verklaarde variantie in Y verklaard door met met X/onverklaarde variantie in Y door model met X

=> hoe groter F, hoe beter X als voorspeller van Y

=> toetst of verklaarde variantie significant beter is dan nulmodel

85
New cards
correlatie-analyse
onderzoekt hoe 2 variabelen samenhangen
86
New cards
covariantie

geeft aan in welke mate 2 variabelen samen afwijken van hun gemiddelde

maar: covariaat is afhankelijk van de meetschaal!

oplossing: correlatiecoëfficiënt: tussen -1 en 1 doel: nagaan of de samenhang die we zien in de SP ook bestaat in de populatie

87
New cards
assumpties lineaire regressie
  • zijn er outliers of influential cases?

  • is er multicollineariteit?

  • zijn de variabelen van het juiste type?

  • hebben de variabelen variantie?

  • zijn er geen ongewenste derde variabelen in het spel?

  • is de variantie van de errors homoscedastisch?

  • zijn de errors onafhankelijk?

  • zijn de errors normaal verdeeld?

  • is de relatie lineair en additief?

88
New cards
Outliers/influential cases
observaties die extreem ver van de andere observaties liggen -> kunnen voor vertekening zorgen (in de regressielijn)
89
New cards
hoe vindt je een outlier?

kijk naar de gestandaardiseerde residuelen (errors) van de observaties want die tonen hoe sterk een observatie afwijkt van andere observaties/regressielijn

=> hoge absolute waarde voor z: erg ver van regressielijn of ook: descriptieve analyses zoals frequentietabellen, is de waarde een mogelijk antwoord? en plot de data in histogrammen en scatterplots

90
New cards
normaal verdeelde (rond 0) residuelen
  • 95% vd observaties tussen -1.96 en 1.96

  • 99% vd observaties tussen -2.58 en 2.58

  • 99.9% vd observaties tussen -3.29 en 3.29

=> als een waarde buiten deze grenzen valt, kan je ze overwegen te verwijderen

91
New cards
multicollineariteit

samenhang tussen verschillende voorspellers

=> perfecte collineariteit: er is een correlatie van 1 of -1 tussen 2 van de onafhankelijke variabelen

=> bij perfecte samenhang zouden de voorspellers exact hetzelfde zijn; dan kan je de unieke bijdrage van de predictoren niet nagaan

=> correlaties tussen OV best onder .80 of .90

92
New cards
problemen met sterke correlaties tussen onafhankelijke variabelen
  • standaardfout van regressie coëfficiënten is gebiased

  • weinig unieke variantie toe te schrijven aan een specifieke predictor

  • lage R

  • moeilijk om in te schatten welke variabelen relatief gezien belangrijker is

93
New cards

checken voor multicollineariteit

  • correlaties best onder .80 of .90

  • VIF: variance Inflation Factor

  • Tolerance 1/VIF

94
New cards

VIF

variance Inflation Factor: gaat na of een predictor een sterke lineaire relatie heeft met de andere predictoren

  • > 10: probleem,

  • gemiddelde VIF < 1: mogelijks probleem

95
New cards

Tolerance

1/VIF:

  • < 0.1: probleem

  • < 0.2 mogelijks probleem

96
New cards
dummy coding
je vormt de multicategorische variabele met k categorieën eerst om naar meerdere (k-1) binaire variabelen: elke dummy variabele heeft 2 categorieën
97
New cards

Stappenplan dummy coderen

  1. tel het aantal categorieën van de categorische OV en trek er 1 van

  2. creëer evenveel (dummy)variabelen als nodig bleken in stap 1

  3. kies één categorische baseline

  4. referentiecategorie

  5. geef de referentiecategorie in elke dummyvariabele 0

  6. voor je eerste dummy geef je code 1 aan de eerste categorie die je met de referentiecategorie wil vgl, de andere categorieën krijgen 0

  7. doe dit voor alle dummyvariabelen

  8. stop al deze dummyvariabelen tegelijkertijd in de regressieanalyse

98
New cards
Wat is de regressie met dummies eigenlijk?
per definitie een meervoudige regressie -> in de meeste gevallen ga je dus over naar een ANOVA-analyse = analyse technieken die kijken naar significante verschillen tussen groepen
99
New cards

wat doet een regressie-analyse

zoekt altijd naar samenhang: als er geen variantie is, kan je dat niet inschatten bv: invloed van taal op toets: als iedereen dezelfde taal spreekt kan je niet zien hoe taal een invloed kan hebben

=> geen variantie = geen regressie-analyse

100
New cards
schijnverbanden (spurious relationships)
de observatie van een lineaire relatie tussen x1 en y wil niet noodzakelijk zeggen dat x1 y lineair voorspelt. De relatie kan ook verklaard worden door het feit dat x1 gerelateerd is aan een niet-gemodelleerde variabele x2 die samenhangt met y en overlap in variantie van x1 en y veroorzaakt