Wat kenmerkt een normaal verdeelde dataset?
Wordt gekenmerkt door een gemiddelde, een standaarddeviatie en een symmetrische curve.
Wat geeft de r-waarde aan in een Pearson test?
De sterkte van het verband tussen twee variabelen bij de Pearson test. Een getal tussen -1 en 1. Een r van -1 is de sterkst mogelijke negatieve correlatie. 0 betekent geen correlatie. 0.3 is een zwakke positieve correlatie.
1/20
Flashcards on statistical terms and concepts.
Name | Mastery | Learn | Test | Matching | Spaced |
---|
No study sessions yet.
Wat kenmerkt een normaal verdeelde dataset?
Wordt gekenmerkt door een gemiddelde, een standaarddeviatie en een symmetrische curve.
Wat geeft de r-waarde aan in een Pearson test?
De sterkte van het verband tussen twee variabelen bij de Pearson test. Een getal tussen -1 en 1. Een r van -1 is de sterkst mogelijke negatieve correlatie. 0 betekent geen correlatie. 0.3 is een zwakke positieve correlatie.
Wat is een niet-parametrische dataset ook wel bekend als?
Ook wel: niet-parametrisch. Met een scheve verdeling, of ordinale schaal.
Wat wordt bedoeld met 'onderscheidend vermogen' in statistische testing?
De mate waarin een statistische toets in staat is om een patroon te ontdekken als dat patroon er inderdaad is. Met andere woorden: als je twee statistische toetsen correct kan toepassen en de ene toets detecteert terecht een verschil en de andere toets niet, heeft de eerste toets een beter onderscheidend vermogen.
Definieer een nominale variabele.
Variabele die categorieën heeft zonder rangschikking. Bijvoorbeeld mannetje/vrouwtje, diersoort, bos/heide/grasland, etc.
Standaarddeviatie (σ)
Een maat voor de spreiding rond het gemiddelde. Een hoge standaarddeviatie betekent dat in een populatie er vaak een veel hogere of lagere waarde dan het gemiddelde wordt gevonden. Bijvoorbeeld:
Lage standaarddeviatie: 3,4,5,5,6,6,7,8 (het gemiddelde is hier 5.5 en de standaarddeviatie is 1.5)
Hogere standaarddeviatie: 1,3,5,6,8,10 (het gemiddelde is hier ook 5.5 en de standaarddeviatie is 3)
Ordinale variabele
Variabele die categorieën heeft met rangschikking. Bijvoorbeeld voedselrijk/matig/voedselarm, ei/rups/pop/vlinder. Alle continue variabelen kunnen ook in ordinale schaal omgezet worden, bijv. leeftijdscategorieën.
Standaardfout (S.E.)
Een maat voor de onzekerheid in een gemiddelde dat gebaseerd is op een steekproef. Als je van een grote populatie een steekproef neemt om het gemiddelde te bepalen, geeft de standaardfout aan hoeveel onzekerheid er is. De standaardfout wordt berekend met σ/N.
Continue variabele
Variabele die geen categorieën heeft maar in getallen uitgedrukt wordt die optelbaar en aftrekbaar zijn. Bijvoorbeeld leeftijd in jaren, lengte in cm, legselgrootte (aantal eieren).
Z-waarde
De z-waarde geeft aan hoe ver een waarneming van het gemiddelde van de populatie af zit, gerekend in aantal standaarddeviaties. Als het gemiddelde 5.5 is en de standaarddeviatie 3, dan geldt voor een waarneming van 8.5 dan z=1 (want 5.5 + 3 = 8.5). Een z= -2 heb je bij 5.5 – 3 * 2 = -0.5.
Samenhang / Correlatie
Samenhang of Correlatie betekent dat twee variabelen in een bepaalde mate tegelijk veranderen. Dit kan negatief zijn (als de ene variabele hoger wordt, wordt de andere lager) of positief (de richting is hetzelfde). De samenhang / correlatie kan ook sterk zijn (de ene variabele is sterk voorspelbaar op basis van de andere en vice versa) of zwak. Samenhang betekent niet dat er een oorzakelijk / causaal verband is.
Nulhypothese
De hypothese dat er geen effect is. Met statistiek probeer je te 'bewijzen' dat dit niet zo is.
Afhankelijke variabele
Ook wel: verklarende variabele. Variabele die je probeert te voorspellen, of die afhangt van de onafhankelijke variabele. Bijv: lengte hangt af van leeftijd. Niet andersom. Lengte is de afhankelijke variabele. Komt op de y-as in grafieken.
Alternatieve hypothese
De hypothese dat er wel een effect is. Als je P-waarde onder de Alfa komt is dat 'bewijs' dat de Nulhypothese niet klopt (dat het dus niet klopt dat er geen effect is) en dan mag je je alternatieve hypothese (dat er wel een effect is) aannemen.
Onafhankelijke variabele
Variabele die je gebruikt om te voorspellen. Bijvoorbeeld: habitat beïnvloedt het aantal muizen, niet andersom. Habitat is de onafhankelijke variabele.
Type I fout
Type 1 fout. Ook wel 'false positive'. Als je aanneemt dat er een effect is terwijl dit niet zo is. Bijvoorbeeld door toevalligheden in je data. Of door een verkeerde statistische toets.
P-waarde
De waarschijnlijkheid dat gevonden verschillen op toeval berusten. Getal tussen 0 en 1. Een lage P-waarde betekent: waarschijnlijk geen toeval, eerder een patroon (correlatie met de onafhankelijker variabele).
Type II fout
Type 2 fout. Ook wel 'false negative'. Als je aanneemt dat er geen effect is, terwijl er in werkelijkheid wel een effect is. Meestal is dat doordat je een hoge P-waarde hebt, doordat je een te kleine dataset/steekproef hebt verzameld.
Alfa / α
De grens voor de P-waarde. Getal tussen 0 en 1. Als de P-waarde onder deze grens ligt is er zo’n sterk vermoeden dat er een patroon / correlatie is dat je dit mag ‘aannemen’. Dat heet dan ‘statistisch significant’.
Betrouwbaarheidsinterval
Twee waarden waartussen met een bepaalde zekerheid (meestal 95% zeker) een waarde ligt. Het gaat meestal om een gemiddelde. Als het 95%-betrouwbaarheidinterval [2, 4] is, ligt een waarde (bijvoorbeeld de lengte van een dier, of het werkelijke gemiddelde van een populatie) met 95% zekerheid tussen 2 en 4.
R2
Sterkte van het effect van de onafhankelijke variabele op de afhankelijke variabele. Getal tussen 0 en 1. R2 = 1 betekent dat je de afhankelijke variabele 100% kan verklaren met de onafhankelijke in de data. R2 = 0 betekent dat de onafhankelijke variabele geen enkele informatie geeft over de afhankelijke variabele.