Blok 6 'Introductie Statistische Methoden voor Data-analyse' Week 1 | Quizlet

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/85

There's no tags or description

Looks like no tags are added yet.

Last updated 1:56 PM on 7/1/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai	Chat

No analytics yet

Send a link to your students to track their progress

86 Terms

New cards

Variabelen met welke meetniveaus zijn categorische variabelen?

- Nominaal

- Ordinaal

New cards

Variabelen met welke meetniveaus zijn numerieke / continue variabelen?

- Interval

- Ratio

New cards

Nominale variabelen

Categorieën waarbij geen sprake is van volgorde gebaseerd op grootte (bijv. geboorteland).

New cards

Ordinale variabelen

Categorieën waarbij er wel sprake is van een rangorde, maar waarbij de intervallen niet even groot zijn (bijv. koffiegrootte smal, medium, large)

New cards

Interval variabelen

- Variabelen gemeten op een continue schaal (nemen alle waarden aan) waarbij de intervallen even groot zijn.

- De getallen zijn niet betekenisvol (20 graden is niet twee keer zo warm als 10 graden)

- Er is geen absoluut nulpunt

- Bijv. temperatuur

New cards

Ratio variabelen

- De getallen zijn betekenisvol

- Er is een absoluut nulpunt.

- Bijv. gewicht

New cards

Waarmee worden categorische variabelen meestal samengevat?

Procenten

New cards

Waarmee worden numerieke variabelen meestal samengevat?

- Gemiddelde

- Mediaan

New cards

Kunnen numerieke variabelen worden omgezet in categorische variabelen?

Ja, altijd (bijv. leeftijd --> kind / volwassene / senior)

New cards

Frequentie vs. proportie vs. percentage

- Frequentie: 110 van de 200

- Proportie: 0.55

- Percentage 55% (laat de verdeling zien)

New cards

Bij een steekproef van welke grootte kunnen frequentie, proportie en percentage het beste gebruikt worden?

- Kleine steekproef: frequentie

- Grote steekproef: proportie en percentage

--> Proportie en percentage kunnen misleidend zijn bij een kleine steekproef.

New cards

Van welke grafiek wordt bij categorische (nominale / ordinale) variabelen gebruikgemaakt om de data samen te vatten?

- Bar chart (staafdiagram)

- Pie chart (cirkeldiagram)

New cards

Histogram

- Soort data

- Staafbreedte

- Y-as

- [40,50)

- Kwantitatieve data

- De staafbreedte (bar width) is bij elke staaf gelijk. Alleen bij missende data is er ruimte tussen de staven.

- Op de y-as worden de frequenties weergegeven.

- 40 wel meetellen bij dit interval, 50 niet

New cards

Welk type grafiek is het meest geschikt om numerieke (interval / ratio) variabelen samen te vatten?

- Histogram

- Boxplot

New cards

Mode (centrummaat)

Getal dat het meest voorkomend is in een dataset.

New cards

Mediaan (centrummaat, non-parametrische maat)

Middelste getal in de dataset (data geordend van laag naar hoog).

New cards

Arithmetic mean (centrummaat, parametrische maat)

Gemiddelde, data bij elkaar optellen en delen door n.

New cards

Trimmed mean

De mean nadat een bepaald percentage van de bovenste en onderste getallen is verwijderd.

New cards

Zijn de mean en de mediaan gevoelig voor uitschieters?

- Mean wel

- Mediaan niet

New cards

Mean vs. mediaan

- Symmetrische distributie

- Skewed distributie

- Symmetrische distributie --> ongeveer mean = mediaan (= modus)

- Skewed distributie --> mean wordt naar de staart getrokken

New cards

Dispersion

Spreiding, hoe ver liggen de getallen in de dataset gemiddeld van het midden af.

New cards

Bereik

- Hoogste getal - laagste getal in de dataset (--> maximum - minimum)

- Hoe hoger het bereik, hoe hoger de spreiding.

New cards

Interkwartielafstand (IQR)

- Een descriptieve statistiek die informatie geeft over de spreiding van de middelste helft van een verdeling.

- Wanneer de IQR gebruikt wordt als maat voor de spreiding, moet de mediaan gebruikt worden als centrummaat.

- IQR = Q3 - Q1

- Soort van trimmed mean

New cards

Q1 en Q3

- Q1 --> mediaan laagste 50%

- Q3 --> mediaan hoogste 50%

New cards

Is de variantie / standaarddeviatie gevoelig voor uitschieters?

New cards

Standaarddeviatie

De standaarddeviatie geeft de gemiddelde mate van spreiding aan in een dataset. Het geeft aan hoezeer de geobserveerde waardes afwijken van het gemiddelde.

New cards

Boxplot (van onder naar boven)

- Minimum (zonder uitschieters)

- Eerste kwartiel (Q1, onderkant van de box, 25% data)

- Mediaan (dikke streep)

- Derde kwartiel (Q3, bovenkant van de box, 75% data)

- Maximum (zonder uitschieters)

New cards

Hoe worden uitschieters weergegeven in een boxplot?

- Als allemaal losse punten

- Uitschieters mogen niet verwijderd worden

New cards

Hoe wordt bepaald of iets een uitschieter is?

- Groter of gelijk aan Q3 + 1,5 * IQR

- Kleiner of gelijk aan Q1 - 1,5 * IQR

New cards

Normaalverdeling

- Een theoretisch concept van hoe grote steekproeven met interval of ratio meetniveau eruitzien, wanneer de data wordt geplot.

- Hoe waarschijnlijk is het dat bepaalde waarden uit de populatie terugkomen wanneer data wordt verzameld uit een steekproef?

New cards

Hoe verhouden de mean, mediaan en modus zich tot elkaar in een normaalverdeling?

Mean = mediaan = modus

New cards

Empirical rule normaalverdeling

- Ook wel 68-95-99.7 regel, deze regel houdt in dat bijna alle geobserveerde data voor een normaaldistributie zal vallen binnen drie standaarddeviatie van de mean.

- 68% binnen één standaarddeviatie, 95% binnen twee SD en 99.7% binnen drie SD.

New cards

Wat zijn kenmerken van een normaalverdeling?

- Symmetrisch (skewness = 0)

- Klokvormig

- Eén piek (unimodal)

- Vaste scoreverdeling (65-95-99.7)

New cards

Z-score

- Gestandaardiseerde score

- Wordt gebruikt om te meten hoeveel standaarddeviaties een bepaalde score boven of onder het gemiddelde valt --> maakt vergelijken en kansberekeningen mogelijk.

New cards

Formule skewness (scheefheid)

(mean - mediaan) / standaarddeviatie

New cards

Hoe verhouden de mean, mediaan en mode zich tot elkaar, wanneer de grafiek positively skewed is (right-skewed)?

Mode < mediaan < mean

New cards

Hoe verhouden de mean, mediaan en mode zich tot elkaar, wanneer de grafiek negatively skewed is (left-skewed)?

Mean < mediaan < mode

New cards

Kurtosis

- Gaat over de vorm van de curve.

- Niet nodig om te berekenen bij een skewed distributie, want de distributie is al abnormaal.

New cards

Mesokurtic

Bij een normaalverdeling --> K = 0

New cards

Platykurtic

Bij een vlakke verdeling (zeer verdeeld) --> K < 0

New cards

Leptokurtic

Hoge piek (minder variabiliteit) --> K > 0

New cards

Wat is de waarde van de mean en de variantie bij een standaard normaalverdeling?

- Mean = 0

- Variantie = 1

New cards

Formule Z-score

(geobserveerde score - mean) / standaarddeviatie

New cards

Eigenschappen z-score

- De vorm van de verdeling wordt behouden

- Het gemiddelde is 0

- De standaarddeviatie is 1

New cards

Bij welke variabelen kan het cummulatieve percentage niet worden gebruikt?

Bij nominale variabelen

New cards

Wat zijn maten voor de spreiding?

- Range

- Interkwartielafstand

- Standaarddeviatie

New cards

Hoe bepalen welke groep beter is, wanneer het gemiddelde gelijk is?

Kijk naar een andere maat, bijvoorbeeld de standaarddeviatie --> laagste standaarddeviatie is het beste (vb. ambulanceservice).

New cards

Discrete variabelen

Nemen geen tussenwaarden aan (bijv. aantal kinderen in een gezin)

New cards

Correlatie

- Geeft de mate van samenhang tussen twee variabelen weer, ofwel in hoeverre twee variabelen elkaar beïnvloeden. De correlatie wordt uitgedrukt in de correlatiecoëfficiënt.

- Zegt iets over de richting en de sterkte van de samenhang

New cards

Tussen welke waarden ligt de correlatiecoëfficiënt altijd en wat zegt welke waarde?

- Altijd een waarde tussen de -1 en 1.

- r = 0 --> geen correlatie

- r = -1 - 0 --> helling naar beneden

- r = 0 - 1 ---> helling omhoog

New cards

Stappen correlatie

- Stap 1: een lijn door de data

- Stap 2: richting bepalen

- Stap 3: quality of fit --> waar de afstand tussen de punten ten opzichte van de rechte lijn het kleinste is, is de correlatie het sterkst.

--> Hoe dichter de geobserveerde waarden langs de lijn liggen, hoe sterker de correlatie.

New cards

Zegt de correlatie ook iets over het effect van X op Y?

Nee, alleen over de richting en de sterkte van de correlatie.

New cards

Welke analyse zegt iets over de relatie tussen X en Y?

Lineaire regressie

New cards

Wanneer wordt een simpele lineaire regressie uitgevoerd? Bij variabelen van welke meetniveaus?

- Wanneer zowel de X als de Y variabelen continue variabelen zijn

- Wanneer de X-variabele categorisch (wel binair!) is en de Y-variabele continu.

New cards

Error (residu)

Het verschil tussen de geobserveerde waarde Y en de voorspelde Y-waarde (Y^)

--> e = Y - Y^

New cards

Y-intercept

- Het punt waar de lijn de y-as snijdt bij x = 0.

- Symbool B0

New cards

Symbool helling (slope)

- B1

- De verandering in gemiddelde van Y, wanneer X met één eenheid toeneemt.

New cards

Wat is het verschil tussen de formule van Y en de voorspelde waarde van Y(^)?

Bij Y is het + e, bij Y^ valt deze term weg.

New cards

Wat zijn de doelen van een regressiemodel?

- Schatten en voorspellen van het effect van X op Y (helling) --> effect size model

- Y voorspellen wanneer X is gegeven --> predictive model

New cards

Regressieanalyse

- Onderzoekt de relatie tussen een afhankelijke variabele en één of meerdere onafhankelijke variabele.

- Zegt wel iets over het effect van X op Y

New cards

Y-variabele (regressieanalyse)

- Afhankelijke variabele

- Variabele die voorspeld wordt

- Responsvariabele

New cards

X-variabele (regressieanalyse)

- Onafhankelijke variabele

- Voorspellende variabele (wordt gebruikt om te voorspellen)

- Verklarende variabele

New cards

Formule geobserveerde y-waarde

y = b0 + b1 * X + e

New cards

Formule geschatte regressielijn

y^ = b0 + b1 * X

New cards

Formule error / residu

e(i) = Y(i) - Y^(i)

New cards

Waarom worden B^(0) en B^(1) gekozen?

Met als doel de som van de gekwadrateerde residuen te minimaliseren.

New cards

Method of least squares

- Wordt gebruikt, omdat dit de best mogelijke regressielijn geeft, wanneer de residuen normaal verdeeld zijn.

- De som van de residuen is hierbij 0.

- De lijn gaat altijd door het punt van de mean van X en de mean van Y.

New cards

R^2 (Coefficient of Determination)

- Geeft aan hoe goed de regressielijn echte waarden schat of voorspelt; hoe goed past de regressielijn voor de geobserveerde waarde (altijd een getal tussen 0 en 1).

- R^2 = 1 --> perfect fit

- R^2 = 0 --> geen relatie (R^0 kan niet gebruikt worden om te voorspellen)

- R^0 tussen 0 en 1 --> het model kan gedeeltelijk voorspellen (niet perfect, wel beter dan alleen het gemiddelde)

New cards

R^2 bij simpele lineaire regressie

(Pearson correlatie coëfficiënt) ^ 2

New cards

Interpretatie R^2 (stel R^2 = 0,71)

- Het percentage van variabiliteit in Y dat kan worden verklaard aan de hand van het model.

- 71% van de variantie in de examencijfers van de studenten kan worden voorspeld op basis van hun studietijd (29% komt dus door andere factoren).

New cards

Adjusted R^2

R^2 - penalty voor het aantal onafhankelijke variabelen in het model

--> Wanneer er meerdere X in het spel zijn, zal er een kleine relatie zijn tussen de X en Y in de steekproef, ook al is dit niet zo in de populatie. De adjusted R2 probeert hiervoor te corrigeren.

New cards

Beperkingen R^2

- De geobserveerde wordt zowel gebruikt om het model te maken en om R^2 te berekenen.

- Eigenlijk: hoe goed kan het model data voorspellen die is gebruikt om het model te maken.

- Oplossing --> cross-validatie

New cards

Hoe wordt de correlatie gevisualiseerd?

Met behulp van een scatter plot (puntenwolk)

New cards

Welke vier elementen moet je onderzoeken bij een scatter plot?

- Richting

- Functionele vorm

- Sterkte

- Ongewone kenmerken

New cards

Positieve correlatie (richting)

Als de waarde van X toeneemt, neemt ook de waarde van Y toe.

New cards

Negatieve correlatie (richting)

Als de waarde van X toeneemt, neemt de waarde van Y af.

New cards

Is de Pearson correlatie mogelijk bij een non-lineaire regressie?

Nee

New cards

Sterkte scatter plot

Hoe dichter de punten bij elkaar liggen, hoe sterker het verband.

New cards

Ongewone kenmerken scatter plot

Bijvoorbeeld duidelijke uitschieters

New cards

Wat doet de Pearson correlatie coëfficiënt?

Het vat de sterkte en de richting van de correlatie samen met behulp van een rechte lijn.

New cards

Wat doet een lineair regressiemodel?

Een regressielijn beschrijft de relatie tussen de Y-waarden en de X-waarden.

New cards

Welke onderdelen zijn nodig voor het bepalen van een regressielijn?

- Intercept

- Helling (slope)

New cards

Wat is het verschil tussen de Pearson correlatie en het lineaire regressiemodel?

- Pearson --> als de leeftijd toeneemt, neemt de lichaamstemperatuur af.

- Lineair regressiemodel --> mensen die één jaar verschillen qua leeftijd, zullen gemiddeld -0,014 graden verschillen in lichaamstemperatuur (specifieke getallen).

New cards

Wat is de regressielijn?

De punten in de regressielijn zijn de voorspelde Y-waarden (Y^).

New cards

Wat kun je zeggen als het residu negatief is?

Dan is Y^ groter dan Y.

New cards

Formule geobserveerde score

Voorspelde score (Y^) + residu of error (e)