Kapitel 5: Zweidimensionale Verteilungen
Zweidimensionale Verteilungen
Einleitung
- Merkmale an statistischen Einheiten können komplexe Zusammenhänge aufweisen.
- Univariate Statistik analysiert ein einzelnes Merkmal, während die zweidimensionale Statistik zwei Merkmale betrachtet.
1. Gemeinsame Häufigkeitsverteilung
- Kontingenztabelle: Übersicht der gemeinsamen Verteilung zweier qualitativer Merkmale, (X, Y).
- Absolute Häufigkeit (niij): Anzahl statistischer Einheiten mit Merkmalsausprägung (xi, yj).
- Relative Häufigkeit (hij): Anteil der Einheiten mit Merkmalsausprägung (xi, yj) an der Gesamtheit.
- Beispiel zur Illustration anhand einer Kontingenztabelle: Merkmale "Noten in Deutsch" (X) und "Noten in Mathematik" (Y).
2. Bedingte Häufigkeitsverteilung
- Bedingte Häufigkeit von X: Anteil der statistischen Einheiten mit Merkmalsausprägung (xi, yj) bei vorgegebener Ausprägung von Y (hj).
- Bedingte Häufigkeit von Y: Anteil der Einheiten mit Merkmalsausprägung (xi, yj) bei vorgegebener Ausprägung von X (hi).
- Funktionsweise anhand des Beispiels der Notenverteilung in den Fächern Deutsch und Mathematik.
3. Zusammenhangsmaße
a. Kontingenzkoeffizient
- Ein Maß für die Stärke der Assoziation zwischen Merkmalen X und Y.
- Formeln:
- Quadratische Kontingenz (Q) als Ausgangspunkt zur Bestimmung des Kontingenzkoeffizienten.
- Pearson's Kontingenzkoeffizient (K): K = Q / (Q + n).
- Normierter Kontingenzkoeffizient (K): 0 ≤ K ≤ 1 zur Vergleichbarkeit von Assoziationen.
- Faustregel zur Interpretation von K*:
- K* ≤ 0,2: schwache Assoziation
- 0,2 < K* ≤ 0,6: mittlere Assoziation
- 0,6 < K* ≤ 1: starke Assoziation
b. Kovarianz
- Messung der Stärke und Richtung des linearen Zusammenhangs zwischen zwei kardinalskalierten Merkmalen X und Y.
- Formel: sXY = 1/n * Σ(xi - x̄)(yi - ȳ).
- Ausreißerempfindlich; Kovarianz = 0 impliziert nicht notwendigerweise Unabhängigkeit.
c. Korrelationskoeffizient
- Normiertes Maß für den linearen Zusammenhang, skaliert zwischen -1 und 1, berechnet über die Kovarianz.
- Unterscheidung zwischen verschiedenen Korrelationsebenen:
- rXY = 1: starke positive Korrelation
- rXY = -1: starke negative Korrelation
- rXY = 0: keine Korrelation.
Grafische Darstellung und Anwendungen
- Streudiagramm: Verwendung zur grafischen Darstellung der zweidimensionalen Beziehung zwischen Merkmalen.
Zusammenfassende Maßzahlen
- Merkmalsaggregate wie Mittelwerte und Varianzen von Summen oder Differenzen.
- Wichtige Eigenschaften zum Schutz gegen solche Maße.
Lernergebnisse
- Kompetenz in der Analyse und Interpretation von zweidimensionalen Daten, sowohl praktisch durch Beispiele als auch theoretisch durch Formeln und Definitionen.