Statistik – Notizen zu Simpsonsches Paradoxon, Berksonsches Paradoxon, Kontextualisierung, Spezifität & Sensitivität, Law of Small Numbers

Im Folgenden findest du kompakte, aber umfassende Notizen zum Inhalt der Präsentation von Clemens H. Cap zum Thema Statistik. Die Notizen folgen der Gliederung der Folien: Simpsonsches Paradoxon, Berksonsches Paradoxon, Kontextualisierung, Spezifität und Sensitivität, Law of Small Numbers, sowie Schlussfolgerungen. Es werden zentrale Konzepte, Beispiele, Abbildungen (Abb./Tab.), Formeln und wichtige Implikationen erläutert. Alle relevanten Details, Mustererklärungen und Erkenntnisse sind in Stichpunkten festgehalten, damit die Notizen als Ersatz für die Originalquelle dienen können.

Simpsonsches Paradoxon

Grundidee: Unterteilungen einer Gruppe können Trends erzeugen, die in der Gesamtheit nicht oder anders vorhanden sind.
Theoretische Einordnung – Leitsätze (Seiten 13):
- Leitsatz 1: Ein Trend in der Gesamtheit kann durch Unterteilung in Gruppen verschwinden oder sich umkehren, sogar in allen Teilgruppen.
- Leitsatz 2: Ein Trend, der in mehreren oder allen Gruppen besteht, kann verschwinden oder sich umkehren, wenn man die Gruppen vereinigt.
- Leitsatz 3: Die Erklärung besteht in der unterschiedlichen Gewichtung durch die jeweilige Größe der Gruppen.
Beispiele (Grundmaterial und Interpretation):
- Bart und Lisa – Beispiel aus der Redaktion (Bart und Lisa als Volontäre; zwei Wochen, insgesamt 10 Artikel pro Person). Fragestellung: Wer soll eingestellt werden? Die Chefs verwenden dasselbe Zahlenmaterial, kommen aber zu unterschiedlichen Ergebnissen, je nach Vorgehen/Interpretation.
- Visuelle Erläuterung (Abb. 1 bis 3): x- und y-Werte können je nach Gruppierung unterschiedlich korreliert erscheinen; Big Data kann Fragen beantworten, ihnen aber nicht unseren Sinn geben.
- Rohdaten und Gewichtung (Tab. 1–3): Tab. 1 Rohdaten; Tab. 2 Chef von Lisa: Lisa soll eingestellt werden (sie hat insgesamt mehr verbessert). Tab. 3 Chefin von Bart: Bart soll eingestellt werden (in beiden Wochen prozentuell höher).
- Interpretationshinweis: Ohne Gewichtung oder Berücksichtigung weiterer Einflussfaktoren lässt sich das Paradoxon nicht endgültig auflösen.
Zentrale Interpretation und Bedeutung:
- Das Paradoxon zeigt, dass wichtige Einflussfaktoren oder Gewichtungen fehlen können.
- In der Praxis ist es ein Hinweis darauf, dass man weitere relevante Variablen berücksichtigen muss, bevor man Schlussfolgerungen zieht.
Weitere Bart-und-Lisa-Argumentation (Fortsetzung):
- Beide Argumente können unter bestimmten Gewichtungen korrekt sein; gleiche Gewichtung aller Arbeiten könnte zu anderen Ergebnissen führen.
- Wichtig: Die Frageformulierung bzw. die Gewichtung der einzelnen Beiträge beeinflusst das Ergebnis erheblich.
Visuelle Erläuterungen (Zusatz):
- Abb. 1: x- und y-Korrelationen unterscheiden sich je nach Gruppierung (blau/rot); die geforderte Frage bestimmt die Antwort.
- Abb. 2–3: Korrelationen je nach Gruppierung, unterschiedliche Interpretationen je nach Kontext.
Medizinische Beispiele: Medikamentendosierung und Geschlecht (Abb. 4):
- x = Dosis eines Medikaments, y = Überlebensjahre, Geschlecht des Patienten.
- Mit Kenntnis des Geschlechts wirkt die Dosis ggf. positiver; ohne Geschlechtskenntnis kann dieselbe Dosis die Lebensdauer verkürzen.
- Interpretation: Die sinnvolle Dosis kann geschlechtsabhängig sein; der Kontext der Fragestellung (Konventionalismus) bestimmt die Antworten.
Kriminalstatistik in Mittelstadt (Beiträge 11–13):
- Verschiedene Teilpopulationen (Inländer, Ausländer; Villenviertel, Vergnügungsviertel) führen zu stark unterschiedlichen Quoten pro Gruppe.
- Insgesamt erscheinen in einigen Gruppenkonstellationen höhere Verbrechensquoten, obwohl in anderen Untergruppen andere Ergebnisse vorliegen.
- Neue Variable/n (z. B. Gruppenzusammensetzung nach Vierteln oder Zeit) ändern das interpretierte Bild.
- Hinweis: Tageszeitung 3 zieht Aussagen über die Verteilung der Verbrechen, jedoch kann auch dort nicht einfach von einer generellen Schlussfolgerung ausgegangen werden.
Theoretische Einordnung – Fazit:
- Leitsätze 1–3 gelten als zentrale Orientierung: Gesamttre nd kann durch Gruppierung verschwinden; Trend in Gruppen kann durch Aggregation aufgehellt/deutlich anders erscheinen; Gewichtung durch Gruppengröße ist entscheidend.
- Simpsonsches Paradoxon ist ein Signal, dass wichtige Kofaktoren fehlen und Gewichtungen kritisch interpretiert werden müssen.

Berksonsches Paradoxon

Grundidee: Vorauswahlen bzw. Selektion können zu Korrelationen führen, die in der Grundgesamtheit nicht bestehen.
Struktur der Folien (Abschnitt 2):
- Überblick über das Paradoxon: Vorauswahlprozesse erzeugen scheinbare Korrelationen in der Stichprobe, die in der Population nicht vorhanden sind.
Beispiel: Auswahl im College (1) – Subjektive Vorurteile vs. Populationseffekte
- Ein College wählt Studenten aus (Sportskanonen und Streber–Typen werden jeweils zugelassen).
- Dekanenso_semester zeigt, dass sportliche Fähigkeiten negativ mit intellektuellen Fähigkeiten korreliert erscheinen, wenn man die Gruppe der zugelassenen Studenten betrachtet.
- Erklärungsthese: Solche Korrelationen entstehen durch Selektion; in der Gesamtbevölkerung existiert keine negative Korrelation.
- Gesellschaftliche Erklärungen (Fake News, College-Einfluss) werden genannt – Warnung vor simplen Interpretationen.
Abbildung (Abb. 5): In der Grundgesamtheit besteht keine Korrelation zwischen Sport und Noten; unter der Selektion (grün) entsteht eine negative Korrelation.
Kernaussagen:
- Selektion erzeugt scheinbare Korrelationen, die in der Grundgesamtheit nicht existieren.
- Ohne Berücksichtigung der Selektionskriterien führt dies zu falschen Schlussfolgerungen.
Kontext: Berksonsches Paradoxon betont, dass Stichprobenprobleme die Interpretation von Zusammenhängen stark beeinflussen können.

Kontextualisierung

Grundidee: Kontexte können dramatische Effekte in der Interpretation bewirken, insbesondere in der Visualisierung von Daten.
Kontextualisierung als Teil der Visualisierungsauswahl – Beispiele (Abschnitt 3):
- Umsatzzahlen ohne Nachbearbeitung vs. Kontextualisierung zur Gehaltserhöhung (Abb. 6): Rohdaten allein liefern wenig Aussagekraft; gezielte Kontextualisierung rückt Licht auf relevante Unterschiede.
- Abschneiden vertikaler Achsen (Abb. 7): Durch Kürzen der y-Achse werden Unterschiede vergrößert; Gefahr der Verzerrung.
- Ausblenden nicht benötigter Abstände (Abb. 8): Weitere Verdeckung von Abständen kann Interpretation beeinflussen.
- Erscheinungsformen der Darstellung: Kurvendiagramm mit zwei Jahren und Durchschnittsauswertung; Entfernung der Achsenbeschriftung erschwert eigenständige Bewertung; direkter Vergleich (Abb. 9–11).
- Nochmaliger direkter Vergleich: Rohdaten vs. bearbeitete Daten, Abb. 10–11.
Warum Kontext wichtig ist:
- Kontextualisierung kann die Wahrnehmung verzerren oder erleichtern; die gleiche Datenmenge kann unterschiedliche Schlussfolgerungen zulassen, je nachdem, wie sie präsentiert wird.
- Kritische Perspektive: Untersuchungsfragen bestimmen die Antworten (Teil des Konventionalismus).
Fazit der Kontextualisierung:
- Datenvisualisierung braucht Transparenz in der Vorbearbeitung; unbeabsichtigte Verzerrungen sind leicht möglich, wenn Achsenlänge, Abstände oder Gruppierungen manipuliert werden.

Spezifität und Sensitivität

Grundidee: Ohne Angabe von Spezifität und Sensitivität lässt sich ein Test nicht sinnvoll bewerten.
Kontingenztafel – Begriffe (Tabellarische Definitionen):
- TP = True Positive
- FP = False Positive
- FN = False Negative
- TN = True Negative
Sensitivität und Spezifität:
- Sensitivität: $ext{Sensitivität} = rac{TP}{TP+FN}$
- Spezifität: $ext{Spezifität} = rac{TN}{TN+FP}$
Falschalarmrate und verwandte Begriffe:
- Falschalarmrate (False Positive Rate) = $rac{FP}{FP+TN} = 1 - ext{Spezifität}$
- False Non-Match Rate (FNR) = $rac{FN}{FN+TP}$
- False Match Rate (FMR) bzw. False Positive Rate in Biometrie: $ext{FMR} = rac{FP}{FP+TN}$
- False Non-Match Rate (FNMR) = $rac{FN}{FN+TP}$ (entspricht FNR)
Gütemaßzahlen für Tests (Abb. 12): Darstellung von 14 Maßzahlen; zentrale Erkenntnis: Unbedingt definieren, welche Maße wann verwendet werden; zwei Bewertungsrichtungen sind immer nötig.
Trade-off: Sensitivität vs. Spezifität – höhe Sensitivität bedeutet viele Treffer, aber oft mehr Falschtreffer; hohe Spezifität bedeutet weniger Falschaussagen, aber potenziell verpasste Treffer.
Ein-Parameter-Tests (Schwellwert):
- Beispiel: Fingerabdruck-Template-Distanz im Intervall $[a, b]$ .
- Grenzwert nahe $a$ : Hohe Spezifität, geringe Sensitivität (wenig Fehlalarme, aber viele echte Finger werden verpasst).
- Grenzwert nahe $b$ : Hohe Sensitivität, geringe Spezifität (viele Treffer, aber mehr Fehlalarme).
- Gleich nah bei Mitte: Kompromiss zwischen beiden Aspekten; oft wird der Gleichstellungswert als Relative Equal Error Rate (EER) genutzt, insbesondere in Biometrie: $ext{EE R} = ext{FPR}( au) = ext{FNR}( au) ext{ an der Grenzwertwahl } au$
Receiver Operating Curve (ROC) und Area Under the Curve (AUC):
- ROC-Plot zeigt für verschiedene Schwellwerte die False Positive Rate (FPR) vs. True Positive Rate (TPR, identisch mit Sensitivität).
- ROC-Abbildung (Abb. 13) vergleicht drei medizinische Ein-Parameter-Tests.
- Area Under the Curve (AUC): $ext{AUC} = ext{Integral}_{0}^{1} ext{ROC}(t)\, dt$ ; falls vollständige ROC nicht dargestellt, Vergleich mit reinem Raten und perfekter Klassifikation ist sinnvoll.
Praxisbeispiele – mediale Blamage und Statistikkompetenz (Abb. 15–20):
- Sensationsberichte (z. B. Bild) über Krebsdiagnose; Fokus auf Sensationalismus statt statistische Korrektheit.
- Unstatistik-Beiträge von Gigerenzer (Unstatistik 95, 88) als Kritik an fehlerhaften Darstellungen.
- Fazit der Beispiele: Notwendigkeit genauer Definitionen, Transparenz in Methoden, und Skepsis gegenüber sensationalistischen Aussagen.
Disclaimer und Empfehlung (Abb. 39):
- Didaktisch dramatisierte Auswahl, nicht-repräsentativ; vor invasiven Vorsorgeuntersuchungen: Informiere dich über Sensitivität, Spezifität, Risikoprofil, persönliche Faktoren.
- Hinweis: Die Inhalte ersetzen keine individuelle ärztliche Beratung; persönliche Krankengeschichte berücksichtigt werden muss.
Persönliches Fazit (Abb. 40):
- Vertrauen in Wissenschaft ist geschwächt; Bedingungen von Clickbait, Reputation, Geld und Macht beeinflussen die Darstellung;
- Begrifflichkeiten wie fakem, alternative facts, Lügenpresse kritisch hinterfragen;
- Notwendigkeit zur eigenständigen Reflexion, Offenheit gegenüber anderen Sichtweisen; drei Kern-Ursachen: begrenztes Vorwissen, Datenzugang via Dritte, vorgefilterte Daten.

Law of Small Numbers

Grundregel: Bei kleinen Stichproben gibt es eher Ausreißer als bei großen Stichproben.
Beispiele (Abschnitt 5):
- Krebsraten in den 3141 Countys der USA: Counties mit minimalen Raten in ländlichen Gebieten; subjektive Vorurteile über Ursachen (klarer Luft, besseres Wasser, weniger Stress, gesunde Ernährung, mehr Bewegung, etc.).
- Counties mit maximalen Raten ebenfalls ländlich; ähnliche Ursachenlisten (schlechtere medizinische Versorgung, Armut, schlechtere Lebensverhältnisse, mehr fettreiche Ernährung, geringerer Bildungsstand).
- Ergebniskonsistenz: Die gleichen Daten führen zu widersprüchlichen Schlussfolgerungen – Ursache: unterschiedliche Verteilungen von Bevölkerungsgrößen und Stichprobengröße in den Gruppen.
Wichtiges Zusatzproblem: Korrelation vs. Kausalität – die geringe Stichprobengröße erhöht die Wahrscheinlichkeit, kausale Schlüsse falsch zu ziehen.
Fazit Law of Small Numbers: Bei kleinen Stichproben sind Ausreißer wahrscheinlicher; Korrelationen in kleinen Gruppen können trügerisch sein und nicht auf kausale Zusammenhänge hinweisen.

Schlussfolgerung

Zentrales Leitsatz: Jede Statistik verdient konstruktive Skepsis.
Wesentliche Aussagen:
- Wichtige Ergebnisse passieren oft lange vor der statistischen Auswertung.
- Politische/gesellschaftliche Fragen wie Wahlalter, Gerrymandering, etc. werden oft emotionalisiert diskutiert; vorgefasste Entscheidungen können wissenschaftliche Methoden beeinflussen.
- Die Fragen der Gruppeneinteilung (Simpson) oder Vorselektion (Berkson) können zu emotionalen Debatten führen, wobei das Endergebnis als „wissenschaftlich gesichert“ präsentiert wird, obwohl es durch Vorbedingungen beeinflusst ist.
Hauptempfehlung: Vor einer Interpretation einer Statistik sollten vorhanden sein:
- Vollständige Dokumentation der Datenerfassung
- Öffentliche Verfügbarkeit aller erfassten Primärdaten
- Vollständige Dokumentation der statistischen Auswertung
- Statistische Sachkenntnis und kritische Prüfung der Methoden
Falsche vs. richtige Schlussfolgerungen (Zitat):
- Falsche Schlussfolgerung: “Im übrigen glaube ich nur an die Statistik, die ich selbst gefälscht habe.” (Zitiert als Anekdote; kritisch zu werten; Irreführende Zitationen vermeiden.)
- Richtige Schlussfolgerung: Konstruktive Skepsis; Statistik ist ein wichtiges mathematisches Auswertungsinstrument.
Kernerkenntnis: Nur durch vollständige Offenlegung und Prüfung der Mechanismen, Paradoxa und Daten lässt sich verlässliche Schlussfolgerungen ziehen.

Anmerkungen zu Abbildungen und Verzeichnissen (Hinweise aus dem Anhang)

Abb. und Tab.-Verweise dienen der Illustration der Paradoxa; Verzeichnisse der Abbildungen, Tabellen, Verzeichnisse der Folien und Rechtsnachweise finden sich im Anhang des Dokuments.
Wichtige Abbildungen im Kontext dieser Kapitel: Abb. 1–6 (Simpsonsches Paradoxon visuell), Abb. 5–7 (Berksonsches Paradoxon-Abbildungen), Abb. 9–11 (Kontextualisierung-Varianten), Abb. 12–20 (Spezifität/Sensitivität-Darstellungen) sowie weitere Abbildungen zur Krebsdiagnose und zu Mediensensationen.

Formeln und zentrale Begriffe (Zusammenfassung der Kernformeln)

Sensitivität: $ext{Sensitivität} = rac{TP}{TP+FN}$
Spezifität: $ext{Spezifität} = rac{TN}{TN+FP}$
Falschalarmrate (False Positive Rate): $ext{FPR} = rac{FP}{FP+TN} = 1 - ext{Spezifität}$
False Non-Match Rate (FNMR): $ext{FNMR} = rac{FN}{FN+TP} = ext{FNR}$
False Match Rate (FMR) in Biometrie: $ext{FMR} = rac{FP}{FP+TN}$
Equal Error Rate (EE R): Grenzwert, bei dem FPR = FNR; oft verwendet als Nebenbedingung in ROC-Analysen.
ROC und AUC:
- ROC: Zusammenhang zwischen FPR (X-Achse) und TPR/Sensitivität (Y-Achse) über verschiedene Schwellenwerte.
- AUC: $ext{AUC} = ext{Area under the ROC curve} = ext{Integral}_{0}^{1} ext{ROC}(t)\, dt$

Hinweis zur Struktur der Inhalte: Die hier dargestellten Notizen fassen die wichtigsten und auch die kleineren Aspekte der Folien zusammen, einschließlich konkreter Beispiele, Abbildungen (Abb./Tab.), und die daraus abgeleiteten Lehren. Nutze diese Notizen als komprimierte, aber vollständige Orientierung, um dich schnell auf das Thema vorzubereiten."