Bivariate beschrijvende statistiek

Bivariate data;

  • bi - variaat } twee- variabelen
  • bivariate data: van elk element werden twee variabelen onderzocht en aan elkaar gekoppeld.

  → als de bivariate data numeriek zijn dan als punten in een vlak voor te stellen

  ⇒ spreidingsdiagram

Spreidingsdiagram; (= scatterplot, = correlatiediagram)

= grafische voorstelling van numeriek data

  • elk punt = 1 meting
  • elke meting = 1 punt

  ⇒ een puntenwolk = verzameling van alle punten in het spreidingsdiagram

  ! breuklijn (scheurlijn), horizontaal → onafhankelijke variabele, ↑ afhankelijke variabele

Verbanden tussen variabelen;

  • om statisch verband tussen bivariate numerieke date gebruiken we een spreidingsdiagram

Soorten verbanden;

als de puntenwolk een bijzondere vorm heeft dan is het een bijzonder verband

  • lineair verband = statistisch verband benadert een rechte, f(x)=ax+b
  • recht evenredig verband = trendlijn gaat door de oorsprong, f(x)=ax
  • omgekeerd evenredig verband = trendlijn heeft een hyperbool, f(x)=1/x
  • kwadratisch verband= puntenwolk benadert de vorm van een parabool, f(x)=ax² (+bx+c)
  • geen verband = willekeurige puntenwolk, /
  • periodiek verband = terugkerend patroon in de puntenwolk, sinusgolf

  hoe dichter de puntenwolk bij de trendlijn ligt, hoe sterker het verband

Trendlijn;

= grafiek die de globale vorm weergeeft/benadert van de puntenwolk → om met functievoorschrift voorspellingen te doen

Bijzonderheden;

  • uitschieters = solitaire punten
  • clusters= meer dan 1 wolk in het spreidingsdiagram
  • interpoleren = punten zoeken binnen de trendlijn
  • extrapoleren = punten zoeken buiten de trendlijn (onderzoeksgebied)
  • voorspellingen; interpoleren, extrapoleren

Soorten lineaire verbanden;

  • correlatie= samenhang of het verband
  • correlatiecoëfficiënt = getal dat de sterke en de richting van het statisch verband tussen 2 kwantitatieve numerieke variabelen weergeeft → alleen bij lineair verband, symbool r; Pearsons r, ∈ [-1,+1]

 interpretatie

  • negatief verband = dalende regressielijn/trendlijn
  • positief verband= stijgende regressielijn/trendlijn
  • -1/+1 betekent dat de puntenwolk volledig op de trendlijn
  • ! rico ≠ richtingscoëfficiënt

Correlatie is geen causaliteit;

  • correlatie = statistisch vastgesteld verband tussen numerieke data
  • causaliteit = oorzakelijk verband tussen onafhankelijke en afhankelijke variabelen
  • correlatie ← causaliteit
  • misvattingen; toevallig verband, 3e variabele, omgekeerd oorzakelijk verband

\ \