EMS8-Sampling-Redux (2)
Einführung in die Stichprobenverteilungen
Besprechung von Stichproben und deren Verteilungen als Grundlage.
Rückblick auf die vorherige Diskussion zur Wahrscheinlichkeitstheorie.
Ziel: Den Zusammenhang zwischen der Stichprobe und der Stichprobenverteilung verstehen.
Was wir gelernt haben
Die Stichprobenverteilung wird angenommen, als würden alle Stichproben einer bestimmten Größe genommen.
In der Praxis ziehen wir jedoch nur eine Stichprobe.
Fragestellung: Wie können wir die Eigenschaften der Stichprobenverteilung erkennen?
Zukünftige Themen
Die Wahrscheinlichkeitstheorie bietet die notwendigen Werkzeuge für diese Analyse.
Der Fokus wird zunächst auf Stichproben aus einer Normalverteilung liegen, gefolgt von einer Verallgemeinerung auf beliebige Verteilungen.
Wichtige Konzepte:
Verzerrung (Bias)
Standardfehler (Standard Error)
Punktschätzung (Point Estimate)
Konfidenzintervall (Confidence Interval)
Fehlermarge (Margin of Error)
Asymptotische Theorie (Asymptotic Theory)
Zentraler Grenzwertsatz (Central Limit Theorem)
Stichproben aus einer Normalverteilung
Annahme: Zielpopulation Y ∼ N (µ, σ) mit bekanntem σ und unbekanntem µ.
Ziehen einer Stichprobe von n Einheiten aus der Zielpopulation.
„epsem“ = „equal probability selection mechanism“
Berechnung des Stichprobenmittelwerts y¯ zur Schätzung von µ und Untersuchung der Eigenschaften dieser Verteilung.
Schritt 1: Berechnung des Stichprobenmittelwertes
Formel: y¯ = (1/n) * Σ(yi) für i=1 bis n.
Da jedes y normalverteilt ist, folgt, dass die Summe n Normalverteilungen auch normalverteilt ist.
Erkenntnis: y¯ hat eine Normalverteilung, was die Stichprobenverteilung darstellt.
Schritt 2: Erwartungswert des Stichprobenmittelwertes
Verwendung der Eigenschaften von Erwartungen:
Resultat: E[y¯] = µ, was bedeutet, dass der Erwartungswert des Schätzers µ entspricht.
Schritt 3: Varianz des Stichprobenmittelwertes
Annahme: Var[y¯] = σ²/n, was eine große oder unendliche Zielpopulation voraussetzt.
Stichprobenverteilung
Definition: Die Stichprobenverteilung ist eine Wahrscheinlichkeitsdichtefunktion, die die Werte eines Schätzers beschreibt, die man bei wiederholten Stichproben der Größe n erwarten würde.
Verzerrung
Definition: Die Verzerrung eines Schätzers ist die Differenz zwischen dem Erwartungswert des Schätzers und dem wahren Wert.
Im Fall der Normalverteilung gilt E[y¯] = µ, somit ist der Schätzer unverzerrt, da es keine Diskrepanz gibt.
Standardfehler
Definition: Der Standardfehler ist die Standardabweichung eines Schätzers. Für die Normalverteilung gilt SE[y¯] = σ / √n.
Fehlermarge und Konfidenzintervalle
Punktschätzung: Beispiel für eine Punktschätzung von µ aus einer Normalverteilung (mean(y)).
Nachteil der Punktschätzung: Ignoriert die Variabilität zwischen verschiedenen Stichproben.
Konfidenzintervall: Intervallschätzung, die einen bestimmten Anteil (z.B. 95%) der berechneten Intervalle beinhaltet. Es hat eine untere und eine obere Grenze.
Konfidenzintervall für den Mittelwert
Annahme von Y ∼ N(µ, σ) bei bekanntem σ.
Verteilung: y¯ ∼ N(µ, σ/√n) und z = (y¯ - µ) / (σ/√n) ∼ N(0, 1).
Berechnung des 95%-Konfidenzintervalls mit Hilfe von Quantilen in der Standardnormalverteilung.
Beispiel für ein Konfidenzintervall
Berechnung des Konfidenzintervalls: y¯ - 1.96 * SE[y¯] ≤ µ ≤ y¯ + 1.96 * SE[y¯].
Fehlermarge
Definition: Die Fehlermarge (MoE) ist die Größe des Zufallsstichprobenfehlers.
Berechnung: MoE = z * SE[y¯].
Beispiel: Umfrage mit 51% Unterstützung, Berechnung der Fehlermarge = 1.96 * √(Varianz).
Fehlermargen und Stichprobenumfang
Strategie zur Reduzierung der Fehlermarge: Erhöhung der Stichprobengröße, da der Standardfehler proportional zur Quadratwurzel der Stichprobengröße ist.
Stichproben aus anderen Verteilungen
Aussage: Die Verteilung des Stichprobenmittelwertes aus anderen Verteilungen kann komplex sein.
Zentraler Grenzwertsatz: Unabhängig von der Ursprungverteilung hat der Stichprobenmittelwert bei unendlich großem Stichprobenumfang eine Normalverteilung.
Fazit
Zusammenfassung: Die Konzepte der Stichprobenverteilung, Verzerrung, Standardfehler, Punktschätzung, und Konfidenzintervalle sind crucial für die Statistikauswertung.