Bivariate beschrijvende statistiek
Bivariate data;
bi - variaat } twee- variabelen
bivariate data: van elk element werden twee variabelen onderzocht en aan elkaar gekoppeld.
→ als de bivariate data numeriek zijn dan als punten in een vlak voor te stellen
⇒ spreidingsdiagram
Spreidingsdiagram; (= scatterplot, = correlatiediagram)
= grafische voorstelling van numeriek data
elk punt = 1 meting
elke meting = 1 punt
⇒ een puntenwolk = verzameling van alle punten in het spreidingsdiagram
! breuklijn (scheurlijn), horizontaal → onafhankelijke variabele, ↑ afhankelijke variabele
Verbanden tussen variabelen;
om statisch verband tussen bivariate numerieke date gebruiken we een spreidingsdiagram
Soorten verbanden;
als de puntenwolk een bijzondere vorm heeft dan is het een bijzonder verband
lineair verband = statistisch verband benadert een rechte, f(x)=ax+b
recht evenredig verband = trendlijn gaat door de oorsprong, f(x)=ax
omgekeerd evenredig verband = trendlijn heeft een hyperbool, f(x)=1/x
kwadratisch verband= puntenwolk benadert de vorm van een parabool, f(x)=ax² (+bx+c)
geen verband = willekeurige puntenwolk, /
periodiek verband = terugkerend patroon in de puntenwolk, sinusgolf
hoe dichter de puntenwolk bij de trendlijn ligt, hoe sterker het verband
Trendlijn;
= grafiek die de globale vorm weergeeft/benadert van de puntenwolk → om met functievoorschrift voorspellingen te doen
Bijzonderheden;
uitschieters = solitaire punten
clusters= meer dan 1 wolk in het spreidingsdiagram
interpoleren = punten zoeken binnen de trendlijn
extrapoleren = punten zoeken buiten de trendlijn (onderzoeksgebied)
voorspellingen; interpoleren, extrapoleren
Soorten lineaire verbanden;
correlatie= samenhang of het verband
correlatiecoëfficiënt = getal dat de sterke en de richting van het statisch verband tussen 2 kwantitatieve numerieke variabelen weergeeft → alleen bij lineair verband, symbool r; Pearsons r, ∈ [-1,+1]
negatief verband = dalende regressielijn/trendlijn
positief verband= stijgende regressielijn/trendlijn
-1/+1 betekent dat de puntenwolk volledig op de trendlijn
! rico ≠ richtingscoëfficiënt
Correlatie is geen causaliteit;
correlatie = statistisch vastgesteld verband tussen numerieke data
causaliteit = oorzakelijk verband tussen onafhankelijke en afhankelijke variabelen
correlatie ← causaliteit
misvattingen; toevallig verband, 3e variabele, omgekeerd oorzakelijk verband
Bivariate data;
bi - variaat } twee- variabelen
bivariate data: van elk element werden twee variabelen onderzocht en aan elkaar gekoppeld.
→ als de bivariate data numeriek zijn dan als punten in een vlak voor te stellen
⇒ spreidingsdiagram
Spreidingsdiagram; (= scatterplot, = correlatiediagram)
= grafische voorstelling van numeriek data
elk punt = 1 meting
elke meting = 1 punt
⇒ een puntenwolk = verzameling van alle punten in het spreidingsdiagram
! breuklijn (scheurlijn), horizontaal → onafhankelijke variabele, ↑ afhankelijke variabele
Verbanden tussen variabelen;
om statisch verband tussen bivariate numerieke date gebruiken we een spreidingsdiagram
Soorten verbanden;
als de puntenwolk een bijzondere vorm heeft dan is het een bijzonder verband
lineair verband = statistisch verband benadert een rechte, f(x)=ax+b
recht evenredig verband = trendlijn gaat door de oorsprong, f(x)=ax
omgekeerd evenredig verband = trendlijn heeft een hyperbool, f(x)=1/x
kwadratisch verband= puntenwolk benadert de vorm van een parabool, f(x)=ax² (+bx+c)
geen verband = willekeurige puntenwolk, /
periodiek verband = terugkerend patroon in de puntenwolk, sinusgolf
hoe dichter de puntenwolk bij de trendlijn ligt, hoe sterker het verband
Trendlijn;
= grafiek die de globale vorm weergeeft/benadert van de puntenwolk → om met functievoorschrift voorspellingen te doen
Bijzonderheden;
uitschieters = solitaire punten
clusters= meer dan 1 wolk in het spreidingsdiagram
interpoleren = punten zoeken binnen de trendlijn
extrapoleren = punten zoeken buiten de trendlijn (onderzoeksgebied)
voorspellingen; interpoleren, extrapoleren
Soorten lineaire verbanden;
correlatie= samenhang of het verband
correlatiecoëfficiënt = getal dat de sterke en de richting van het statisch verband tussen 2 kwantitatieve numerieke variabelen weergeeft → alleen bij lineair verband, symbool r; Pearsons r, ∈ [-1,+1]
negatief verband = dalende regressielijn/trendlijn
positief verband= stijgende regressielijn/trendlijn
-1/+1 betekent dat de puntenwolk volledig op de trendlijn
! rico ≠ richtingscoëfficiënt
Correlatie is geen causaliteit;
correlatie = statistisch vastgesteld verband tussen numerieke data
causaliteit = oorzakelijk verband tussen onafhankelijke en afhankelijke variabelen
correlatie ← causaliteit
misvattingen; toevallig verband, 3e variabele, omgekeerd oorzakelijk verband