1/85
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai | Chat |
|---|
No analytics yet
Send a link to your students to track their progress
Variabelen met welke meetniveaus zijn categorische variabelen?
- Nominaal
- Ordinaal
Variabelen met welke meetniveaus zijn numerieke / continue variabelen?
- Interval
- Ratio
Nominale variabelen
Categorieën waarbij geen sprake is van volgorde gebaseerd op grootte (bijv. geboorteland).
Ordinale variabelen
Categorieën waarbij er wel sprake is van een rangorde, maar waarbij de intervallen niet even groot zijn (bijv. koffiegrootte smal, medium, large)
Interval variabelen
- Variabelen gemeten op een continue schaal (nemen alle waarden aan) waarbij de intervallen even groot zijn.
- De getallen zijn niet betekenisvol (20 graden is niet twee keer zo warm als 10 graden)
- Er is geen absoluut nulpunt
- Bijv. temperatuur
Ratio variabelen
- De getallen zijn betekenisvol
- Er is een absoluut nulpunt.
- Bijv. gewicht
Waarmee worden categorische variabelen meestal samengevat?
Procenten
Waarmee worden numerieke variabelen meestal samengevat?
- Gemiddelde
- Mediaan
Kunnen numerieke variabelen worden omgezet in categorische variabelen?
Ja, altijd (bijv. leeftijd --> kind / volwassene / senior)
Frequentie vs. proportie vs. percentage
- Frequentie: 110 van de 200
- Proportie: 0.55
- Percentage 55% (laat de verdeling zien)
Bij een steekproef van welke grootte kunnen frequentie, proportie en percentage het beste gebruikt worden?
- Kleine steekproef: frequentie
- Grote steekproef: proportie en percentage
--> Proportie en percentage kunnen misleidend zijn bij een kleine steekproef.
Van welke grafiek wordt bij categorische (nominale / ordinale) variabelen gebruikgemaakt om de data samen te vatten?
- Bar chart (staafdiagram)
- Pie chart (cirkeldiagram)
Histogram
- Soort data
- Staafbreedte
- Y-as
- [40,50)
- Kwantitatieve data
- De staafbreedte (bar width) is bij elke staaf gelijk. Alleen bij missende data is er ruimte tussen de staven.
- Op de y-as worden de frequenties weergegeven.
- 40 wel meetellen bij dit interval, 50 niet
Welk type grafiek is het meest geschikt om numerieke (interval / ratio) variabelen samen te vatten?
- Histogram
- Boxplot
Mode (centrummaat)
Getal dat het meest voorkomend is in een dataset.
Mediaan (centrummaat, non-parametrische maat)
Middelste getal in de dataset (data geordend van laag naar hoog).
Arithmetic mean (centrummaat, parametrische maat)
Gemiddelde, data bij elkaar optellen en delen door n.
Trimmed mean
De mean nadat een bepaald percentage van de bovenste en onderste getallen is verwijderd.
Zijn de mean en de mediaan gevoelig voor uitschieters?
- Mean wel
- Mediaan niet
Mean vs. mediaan
- Symmetrische distributie
- Skewed distributie
- Symmetrische distributie --> ongeveer mean = mediaan (= modus)
- Skewed distributie --> mean wordt naar de staart getrokken
Dispersion
Spreiding, hoe ver liggen de getallen in de dataset gemiddeld van het midden af.
Bereik
- Hoogste getal - laagste getal in de dataset (--> maximum - minimum)
- Hoe hoger het bereik, hoe hoger de spreiding.
Interkwartielafstand (IQR)
- Een descriptieve statistiek die informatie geeft over de spreiding van de middelste helft van een verdeling.
- Wanneer de IQR gebruikt wordt als maat voor de spreiding, moet de mediaan gebruikt worden als centrummaat.
- IQR = Q3 - Q1
- Soort van trimmed mean
Q1 en Q3
- Q1 --> mediaan laagste 50%
- Q3 --> mediaan hoogste 50%
Is de variantie / standaarddeviatie gevoelig voor uitschieters?
Ja
Standaarddeviatie
De standaarddeviatie geeft de gemiddelde mate van spreiding aan in een dataset. Het geeft aan hoezeer de geobserveerde waardes afwijken van het gemiddelde.
Boxplot (van onder naar boven)
- Minimum (zonder uitschieters)
- Eerste kwartiel (Q1, onderkant van de box, 25% data)
- Mediaan (dikke streep)
- Derde kwartiel (Q3, bovenkant van de box, 75% data)
- Maximum (zonder uitschieters)
Hoe worden uitschieters weergegeven in een boxplot?
- Als allemaal losse punten
- Uitschieters mogen niet verwijderd worden
Hoe wordt bepaald of iets een uitschieter is?
- Groter of gelijk aan Q3 + 1,5 * IQR
- Kleiner of gelijk aan Q1 - 1,5 * IQR
Normaalverdeling
- Een theoretisch concept van hoe grote steekproeven met interval of ratio meetniveau eruitzien, wanneer de data wordt geplot.
- Hoe waarschijnlijk is het dat bepaalde waarden uit de populatie terugkomen wanneer data wordt verzameld uit een steekproef?
Hoe verhouden de mean, mediaan en modus zich tot elkaar in een normaalverdeling?
Mean = mediaan = modus
Empirical rule normaalverdeling
- Ook wel 68-95-99.7 regel, deze regel houdt in dat bijna alle geobserveerde data voor een normaaldistributie zal vallen binnen drie standaarddeviatie van de mean.
- 68% binnen één standaarddeviatie, 95% binnen twee SD en 99.7% binnen drie SD.
Wat zijn kenmerken van een normaalverdeling?
- Symmetrisch (skewness = 0)
- Klokvormig
- Eén piek (unimodal)
- Vaste scoreverdeling (65-95-99.7)
Z-score
- Gestandaardiseerde score
- Wordt gebruikt om te meten hoeveel standaarddeviaties een bepaalde score boven of onder het gemiddelde valt --> maakt vergelijken en kansberekeningen mogelijk.
Formule skewness (scheefheid)
(mean - mediaan) / standaarddeviatie
Hoe verhouden de mean, mediaan en mode zich tot elkaar, wanneer de grafiek positively skewed is (right-skewed)?
Mode < mediaan < mean
Hoe verhouden de mean, mediaan en mode zich tot elkaar, wanneer de grafiek negatively skewed is (left-skewed)?
Mean < mediaan < mode
Kurtosis
- Gaat over de vorm van de curve.
- Niet nodig om te berekenen bij een skewed distributie, want de distributie is al abnormaal.
Mesokurtic
Bij een normaalverdeling --> K = 0
Platykurtic
Bij een vlakke verdeling (zeer verdeeld) --> K < 0
Leptokurtic
Hoge piek (minder variabiliteit) --> K > 0
Wat is de waarde van de mean en de variantie bij een standaard normaalverdeling?
- Mean = 0
- Variantie = 1
Formule Z-score
(geobserveerde score - mean) / standaarddeviatie
Eigenschappen z-score
- De vorm van de verdeling wordt behouden
- Het gemiddelde is 0
- De standaarddeviatie is 1
Bij welke variabelen kan het cummulatieve percentage niet worden gebruikt?
Bij nominale variabelen
Wat zijn maten voor de spreiding?
- Range
- Interkwartielafstand
- Standaarddeviatie
Hoe bepalen welke groep beter is, wanneer het gemiddelde gelijk is?
Kijk naar een andere maat, bijvoorbeeld de standaarddeviatie --> laagste standaarddeviatie is het beste (vb. ambulanceservice).
Discrete variabelen
Nemen geen tussenwaarden aan (bijv. aantal kinderen in een gezin)
Correlatie
- Geeft de mate van samenhang tussen twee variabelen weer, ofwel in hoeverre twee variabelen elkaar beïnvloeden. De correlatie wordt uitgedrukt in de correlatiecoëfficiënt.
- Zegt iets over de richting en de sterkte van de samenhang
Tussen welke waarden ligt de correlatiecoëfficiënt altijd en wat zegt welke waarde?
- Altijd een waarde tussen de -1 en 1.
- r = 0 --> geen correlatie
- r = -1 - 0 --> helling naar beneden
- r = 0 - 1 ---> helling omhoog
Stappen correlatie
- Stap 1: een lijn door de data
- Stap 2: richting bepalen
- Stap 3: quality of fit --> waar de afstand tussen de punten ten opzichte van de rechte lijn het kleinste is, is de correlatie het sterkst.
--> Hoe dichter de geobserveerde waarden langs de lijn liggen, hoe sterker de correlatie.
Zegt de correlatie ook iets over het effect van X op Y?
Nee, alleen over de richting en de sterkte van de correlatie.
Welke analyse zegt iets over de relatie tussen X en Y?
Lineaire regressie
Wanneer wordt een simpele lineaire regressie uitgevoerd? Bij variabelen van welke meetniveaus?
- Wanneer zowel de X als de Y variabelen continue variabelen zijn
- Wanneer de X-variabele categorisch (wel binair!) is en de Y-variabele continu.
Error (residu)
Het verschil tussen de geobserveerde waarde Y en de voorspelde Y-waarde (Y^)
--> e = Y - Y^
Y-intercept
- Het punt waar de lijn de y-as snijdt bij x = 0.
- Symbool B0
Symbool helling (slope)
- B1
- De verandering in gemiddelde van Y, wanneer X met één eenheid toeneemt.
Wat is het verschil tussen de formule van Y en de voorspelde waarde van Y(^)?
Bij Y is het + e, bij Y^ valt deze term weg.
Wat zijn de doelen van een regressiemodel?
- Schatten en voorspellen van het effect van X op Y (helling) --> effect size model
- Y voorspellen wanneer X is gegeven --> predictive model
Regressieanalyse
- Onderzoekt de relatie tussen een afhankelijke variabele en één of meerdere onafhankelijke variabele.
- Zegt wel iets over het effect van X op Y
Y-variabele (regressieanalyse)
- Afhankelijke variabele
- Variabele die voorspeld wordt
- Responsvariabele
X-variabele (regressieanalyse)
- Onafhankelijke variabele
- Voorspellende variabele (wordt gebruikt om te voorspellen)
- Verklarende variabele
Formule geobserveerde y-waarde
y = b0 + b1 * X + e
Formule geschatte regressielijn
y^ = b0 + b1 * X
Formule error / residu
e(i) = Y(i) - Y^(i)
Waarom worden B^(0) en B^(1) gekozen?
Met als doel de som van de gekwadrateerde residuen te minimaliseren.
Method of least squares
- Wordt gebruikt, omdat dit de best mogelijke regressielijn geeft, wanneer de residuen normaal verdeeld zijn.
- De som van de residuen is hierbij 0.
- De lijn gaat altijd door het punt van de mean van X en de mean van Y.
R^2 (Coefficient of Determination)
- Geeft aan hoe goed de regressielijn echte waarden schat of voorspelt; hoe goed past de regressielijn voor de geobserveerde waarde (altijd een getal tussen 0 en 1).
- R^2 = 1 --> perfect fit
- R^2 = 0 --> geen relatie (R^0 kan niet gebruikt worden om te voorspellen)
- R^0 tussen 0 en 1 --> het model kan gedeeltelijk voorspellen (niet perfect, wel beter dan alleen het gemiddelde)
R^2 bij simpele lineaire regressie
(Pearson correlatie coëfficiënt) ^ 2
Interpretatie R^2 (stel R^2 = 0,71)
- Het percentage van variabiliteit in Y dat kan worden verklaard aan de hand van het model.
- 71% van de variantie in de examencijfers van de studenten kan worden voorspeld op basis van hun studietijd (29% komt dus door andere factoren).
Adjusted R^2
R^2 - penalty voor het aantal onafhankelijke variabelen in het model
--> Wanneer er meerdere X in het spel zijn, zal er een kleine relatie zijn tussen de X en Y in de steekproef, ook al is dit niet zo in de populatie. De adjusted R2 probeert hiervoor te corrigeren.
Beperkingen R^2
- De geobserveerde wordt zowel gebruikt om het model te maken en om R^2 te berekenen.
- Eigenlijk: hoe goed kan het model data voorspellen die is gebruikt om het model te maken.
- Oplossing --> cross-validatie
Hoe wordt de correlatie gevisualiseerd?
Met behulp van een scatter plot (puntenwolk)
Welke vier elementen moet je onderzoeken bij een scatter plot?
- Richting
- Functionele vorm
- Sterkte
- Ongewone kenmerken
Positieve correlatie (richting)
Als de waarde van X toeneemt, neemt ook de waarde van Y toe.
Negatieve correlatie (richting)
Als de waarde van X toeneemt, neemt de waarde van Y af.
Is de Pearson correlatie mogelijk bij een non-lineaire regressie?
Nee
Sterkte scatter plot
Hoe dichter de punten bij elkaar liggen, hoe sterker het verband.
Ongewone kenmerken scatter plot
Bijvoorbeeld duidelijke uitschieters
Wat doet de Pearson correlatie coëfficiënt?
Het vat de sterkte en de richting van de correlatie samen met behulp van een rechte lijn.
Wat doet een lineair regressiemodel?
Een regressielijn beschrijft de relatie tussen de Y-waarden en de X-waarden.
Welke onderdelen zijn nodig voor het bepalen van een regressielijn?
- Intercept
- Helling (slope)
Wat is het verschil tussen de Pearson correlatie en het lineaire regressiemodel?
- Pearson --> als de leeftijd toeneemt, neemt de lichaamstemperatuur af.
- Lineair regressiemodel --> mensen die één jaar verschillen qua leeftijd, zullen gemiddeld -0,014 graden verschillen in lichaamstemperatuur (specifieke getallen).
Wat is de regressielijn?
De punten in de regressielijn zijn de voorspelde Y-waarden (Y^).
Wat kun je zeggen als het residu negatief is?
Dan is Y^ groter dan Y.
Formule geobserveerde score
Voorspelde score (Y^) + residu of error (e)