Besprechung von Stichproben und deren Verteilungen als Grundlage.
Rückblick auf die vorherige Diskussion zur Wahrscheinlichkeitstheorie.
Ziel: Den Zusammenhang zwischen der Stichprobe und der Stichprobenverteilung verstehen.
Die Stichprobenverteilung wird angenommen, als würden alle Stichproben einer bestimmten Größe genommen.
In der Praxis ziehen wir jedoch nur eine Stichprobe.
Fragestellung: Wie können wir die Eigenschaften der Stichprobenverteilung erkennen?
Die Wahrscheinlichkeitstheorie bietet die notwendigen Werkzeuge für diese Analyse.
Der Fokus wird zunächst auf Stichproben aus einer Normalverteilung liegen, gefolgt von einer Verallgemeinerung auf beliebige Verteilungen.
Wichtige Konzepte:
Verzerrung (Bias)
Standardfehler (Standard Error)
Punktschätzung (Point Estimate)
Konfidenzintervall (Confidence Interval)
Fehlermarge (Margin of Error)
Asymptotische Theorie (Asymptotic Theory)
Zentraler Grenzwertsatz (Central Limit Theorem)
Annahme: Zielpopulation Y ∼ N (µ, σ) mit bekanntem σ und unbekanntem µ.
Ziehen einer Stichprobe von n Einheiten aus der Zielpopulation.
„epsem“ = „equal probability selection mechanism“
Berechnung des Stichprobenmittelwerts y¯ zur Schätzung von µ und Untersuchung der Eigenschaften dieser Verteilung.
Formel: y¯ = (1/n) * Σ(yi) für i=1 bis n.
Da jedes y normalverteilt ist, folgt, dass die Summe n Normalverteilungen auch normalverteilt ist.
Erkenntnis: y¯ hat eine Normalverteilung, was die Stichprobenverteilung darstellt.
Verwendung der Eigenschaften von Erwartungen:
Resultat: E[y¯] = µ, was bedeutet, dass der Erwartungswert des Schätzers µ entspricht.
Annahme: Var[y¯] = σ²/n, was eine große oder unendliche Zielpopulation voraussetzt.
Definition: Die Stichprobenverteilung ist eine Wahrscheinlichkeitsdichtefunktion, die die Werte eines Schätzers beschreibt, die man bei wiederholten Stichproben der Größe n erwarten würde.
Definition: Die Verzerrung eines Schätzers ist die Differenz zwischen dem Erwartungswert des Schätzers und dem wahren Wert.
Im Fall der Normalverteilung gilt E[y¯] = µ, somit ist der Schätzer unverzerrt, da es keine Diskrepanz gibt.
Definition: Der Standardfehler ist die Standardabweichung eines Schätzers. Für die Normalverteilung gilt SE[y¯] = σ / √n.
Punktschätzung: Beispiel für eine Punktschätzung von µ aus einer Normalverteilung (mean(y)).
Nachteil der Punktschätzung: Ignoriert die Variabilität zwischen verschiedenen Stichproben.
Konfidenzintervall: Intervallschätzung, die einen bestimmten Anteil (z.B. 95%) der berechneten Intervalle beinhaltet. Es hat eine untere und eine obere Grenze.
Annahme von Y ∼ N(µ, σ) bei bekanntem σ.
Verteilung: y¯ ∼ N(µ, σ/√n) und z = (y¯ - µ) / (σ/√n) ∼ N(0, 1).
Berechnung des 95%-Konfidenzintervalls mit Hilfe von Quantilen in der Standardnormalverteilung.
Berechnung des Konfidenzintervalls: y¯ - 1.96 * SE[y¯] ≤ µ ≤ y¯ + 1.96 * SE[y¯].
Definition: Die Fehlermarge (MoE) ist die Größe des Zufallsstichprobenfehlers.
Berechnung: MoE = z * SE[y¯].
Beispiel: Umfrage mit 51% Unterstützung, Berechnung der Fehlermarge = 1.96 * √(Varianz).
Strategie zur Reduzierung der Fehlermarge: Erhöhung der Stichprobengröße, da der Standardfehler proportional zur Quadratwurzel der Stichprobengröße ist.
Aussage: Die Verteilung des Stichprobenmittelwertes aus anderen Verteilungen kann komplex sein.
Zentraler Grenzwertsatz: Unabhängig von der Ursprungverteilung hat der Stichprobenmittelwert bei unendlich großem Stichprobenumfang eine Normalverteilung.
Zusammenfassung: Die Konzepte der Stichprobenverteilung, Verzerrung, Standardfehler, Punktschätzung, und Konfidenzintervalle sind crucial für die Statistikauswertung.