Kapitel 5: Zweidimensionale Verteilungen

Zweidimensionale Verteilungen

Einleitung
  • Merkmale an statistischen Einheiten können komplexe Zusammenhänge aufweisen.
  • Univariate Statistik analysiert ein einzelnes Merkmal, während die zweidimensionale Statistik zwei Merkmale betrachtet.
1. Gemeinsame Häufigkeitsverteilung
  • Kontingenztabelle: Übersicht der gemeinsamen Verteilung zweier qualitativer Merkmale, (X, Y).
    • Absolute Häufigkeit (niij): Anzahl statistischer Einheiten mit Merkmalsausprägung (xi, yj).
    • Relative Häufigkeit (hij): Anteil der Einheiten mit Merkmalsausprägung (xi, yj) an der Gesamtheit.
  • Beispiel zur Illustration anhand einer Kontingenztabelle: Merkmale "Noten in Deutsch" (X) und "Noten in Mathematik" (Y).
2. Bedingte Häufigkeitsverteilung
  • Bedingte Häufigkeit von X: Anteil der statistischen Einheiten mit Merkmalsausprägung (xi, yj) bei vorgegebener Ausprägung von Y (hj).
  • Bedingte Häufigkeit von Y: Anteil der Einheiten mit Merkmalsausprägung (xi, yj) bei vorgegebener Ausprägung von X (hi).
  • Funktionsweise anhand des Beispiels der Notenverteilung in den Fächern Deutsch und Mathematik.
3. Zusammenhangsmaße
a. Kontingenzkoeffizient
  • Ein Maß für die Stärke der Assoziation zwischen Merkmalen X und Y.
  • Formeln:
    • Quadratische Kontingenz (Q) als Ausgangspunkt zur Bestimmung des Kontingenzkoeffizienten.
    • Pearson's Kontingenzkoeffizient (K): K = Q / (Q + n).
  • Normierter Kontingenzkoeffizient (K): 0 ≤ K ≤ 1 zur Vergleichbarkeit von Assoziationen.
  • Faustregel zur Interpretation von K*:
    • K* ≤ 0,2: schwache Assoziation
    • 0,2 < K* ≤ 0,6: mittlere Assoziation
    • 0,6 < K* ≤ 1: starke Assoziation
b. Kovarianz
  • Messung der Stärke und Richtung des linearen Zusammenhangs zwischen zwei kardinalskalierten Merkmalen X und Y.
  • Formel: sXY = 1/n * Σ(xi - x̄)(yi - ȳ).
  • Ausreißerempfindlich; Kovarianz = 0 impliziert nicht notwendigerweise Unabhängigkeit.
c. Korrelationskoeffizient
  • Normiertes Maß für den linearen Zusammenhang, skaliert zwischen -1 und 1, berechnet über die Kovarianz.
  • Unterscheidung zwischen verschiedenen Korrelationsebenen:
    • rXY = 1: starke positive Korrelation
    • rXY = -1: starke negative Korrelation
    • rXY = 0: keine Korrelation.
Grafische Darstellung und Anwendungen
  • Streudiagramm: Verwendung zur grafischen Darstellung der zweidimensionalen Beziehung zwischen Merkmalen.
Zusammenfassende Maßzahlen
  • Merkmalsaggregate wie Mittelwerte und Varianzen von Summen oder Differenzen.
  • Wichtige Eigenschaften zum Schutz gegen solche Maße.
Lernergebnisse
  • Kompetenz in der Analyse und Interpretation von zweidimensionalen Daten, sowohl praktisch durch Beispiele als auch theoretisch durch Formeln und Definitionen.