Statistik – Notizen zu Simpsonsches Paradoxon, Berksonsches Paradoxon, Kontextualisierung, Spezifität & Sensitivität, Law of Small Numbers

Im Folgenden findest du kompakte, aber umfassende Notizen zum Inhalt der Präsentation von Clemens H. Cap zum Thema Statistik. Die Notizen folgen der Gliederung der Folien: Simpsonsches Paradoxon, Berksonsches Paradoxon, Kontextualisierung, Spezifität und Sensitivität, Law of Small Numbers, sowie Schlussfolgerungen. Es werden zentrale Konzepte, Beispiele, Abbildungen (Abb./Tab.), Formeln und wichtige Implikationen erläutert. Alle relevanten Details, Mustererklärungen und Erkenntnisse sind in Stichpunkten festgehalten, damit die Notizen als Ersatz für die Originalquelle dienen können.

Simpsonsches Paradoxon

  • Grundidee: Unterteilungen einer Gruppe können Trends erzeugen, die in der Gesamtheit nicht oder anders vorhanden sind.

  • Theoretische Einordnung – Leitsätze (Seiten 13):

    • Leitsatz 1: Ein Trend in der Gesamtheit kann durch Unterteilung in Gruppen verschwinden oder sich umkehren, sogar in allen Teilgruppen.

    • Leitsatz 2: Ein Trend, der in mehreren oder allen Gruppen besteht, kann verschwinden oder sich umkehren, wenn man die Gruppen vereinigt.

    • Leitsatz 3: Die Erklärung besteht in der unterschiedlichen Gewichtung durch die jeweilige Größe der Gruppen.

  • Beispiele (Grundmaterial und Interpretation):

    • Bart und Lisa – Beispiel aus der Redaktion (Bart und Lisa als Volontäre; zwei Wochen, insgesamt 10 Artikel pro Person). Fragestellung: Wer soll eingestellt werden? Die Chefs verwenden dasselbe Zahlenmaterial, kommen aber zu unterschiedlichen Ergebnissen, je nach Vorgehen/Interpretation.

    • Visuelle Erläuterung (Abb. 1 bis 3): x- und y-Werte können je nach Gruppierung unterschiedlich korreliert erscheinen; Big Data kann Fragen beantworten, ihnen aber nicht unseren Sinn geben.

    • Rohdaten und Gewichtung (Tab. 1–3): Tab. 1 Rohdaten; Tab. 2 Chef von Lisa: Lisa soll eingestellt werden (sie hat insgesamt mehr verbessert). Tab. 3 Chefin von Bart: Bart soll eingestellt werden (in beiden Wochen prozentuell höher).

    • Interpretationshinweis: Ohne Gewichtung oder Berücksichtigung weiterer Einflussfaktoren lässt sich das Paradoxon nicht endgültig auflösen.

  • Zentrale Interpretation und Bedeutung:

    • Das Paradoxon zeigt, dass wichtige Einflussfaktoren oder Gewichtungen fehlen können.

    • In der Praxis ist es ein Hinweis darauf, dass man weitere relevante Variablen berücksichtigen muss, bevor man Schlussfolgerungen zieht.

  • Weitere Bart-und-Lisa-Argumentation (Fortsetzung):

    • Beide Argumente können unter bestimmten Gewichtungen korrekt sein; gleiche Gewichtung aller Arbeiten könnte zu anderen Ergebnissen führen.

    • Wichtig: Die Frageformulierung bzw. die Gewichtung der einzelnen Beiträge beeinflusst das Ergebnis erheblich.

  • Visuelle Erläuterungen (Zusatz):

    • Abb. 1: x- und y-Korrelationen unterscheiden sich je nach Gruppierung (blau/rot); die geforderte Frage bestimmt die Antwort.

    • Abb. 2–3: Korrelationen je nach Gruppierung, unterschiedliche Interpretationen je nach Kontext.

  • Medizinische Beispiele: Medikamentendosierung und Geschlecht (Abb. 4):

    • x = Dosis eines Medikaments, y = Überlebensjahre, Geschlecht des Patienten.

    • Mit Kenntnis des Geschlechts wirkt die Dosis ggf. positiver; ohne Geschlechtskenntnis kann dieselbe Dosis die Lebensdauer verkürzen.

    • Interpretation: Die sinnvolle Dosis kann geschlechtsabhängig sein; der Kontext der Fragestellung (Konventionalismus) bestimmt die Antworten.

  • Kriminalstatistik in Mittelstadt (Beiträge 11–13):

    • Verschiedene Teilpopulationen (Inländer, Ausländer; Villenviertel, Vergnügungsviertel) führen zu stark unterschiedlichen Quoten pro Gruppe.

    • Insgesamt erscheinen in einigen Gruppenkonstellationen höhere Verbrechensquoten, obwohl in anderen Untergruppen andere Ergebnisse vorliegen.

    • Neue Variable/n (z. B. Gruppenzusammensetzung nach Vierteln oder Zeit) ändern das interpretierte Bild.

    • Hinweis: Tageszeitung 3 zieht Aussagen über die Verteilung der Verbrechen, jedoch kann auch dort nicht einfach von einer generellen Schlussfolgerung ausgegangen werden.

  • Theoretische Einordnung – Fazit:

    • Leitsätze 1–3 gelten als zentrale Orientierung: Gesamttre nd kann durch Gruppierung verschwinden; Trend in Gruppen kann durch Aggregation aufgehellt/deutlich anders erscheinen; Gewichtung durch Gruppengröße ist entscheidend.

    • Simpsonsches Paradoxon ist ein Signal, dass wichtige Kofaktoren fehlen und Gewichtungen kritisch interpretiert werden müssen.

Berksonsches Paradoxon

  • Grundidee: Vorauswahlen bzw. Selektion können zu Korrelationen führen, die in der Grundgesamtheit nicht bestehen.

  • Struktur der Folien (Abschnitt 2):

    • Überblick über das Paradoxon: Vorauswahlprozesse erzeugen scheinbare Korrelationen in der Stichprobe, die in der Population nicht vorhanden sind.

  • Beispiel: Auswahl im College (1) – Subjektive Vorurteile vs. Populationseffekte

    • Ein College wählt Studenten aus (Sportskanonen und Streber–Typen werden jeweils zugelassen).

    • Dekanenso_semester zeigt, dass sportliche Fähigkeiten negativ mit intellektuellen Fähigkeiten korreliert erscheinen, wenn man die Gruppe der zugelassenen Studenten betrachtet.

    • Erklärungsthese: Solche Korrelationen entstehen durch Selektion; in der Gesamtbevölkerung existiert keine negative Korrelation.

    • Gesellschaftliche Erklärungen (Fake News, College-Einfluss) werden genannt – Warnung vor simplen Interpretationen.

  • Abbildung (Abb. 5): In der Grundgesamtheit besteht keine Korrelation zwischen Sport und Noten; unter der Selektion (grün) entsteht eine negative Korrelation.

  • Kernaussagen:

    • Selektion erzeugt scheinbare Korrelationen, die in der Grundgesamtheit nicht existieren.

    • Ohne Berücksichtigung der Selektionskriterien führt dies zu falschen Schlussfolgerungen.

  • Kontext: Berksonsches Paradoxon betont, dass Stichprobenprobleme die Interpretation von Zusammenhängen stark beeinflussen können.

Kontextualisierung

  • Grundidee: Kontexte können dramatische Effekte in der Interpretation bewirken, insbesondere in der Visualisierung von Daten.

  • Kontextualisierung als Teil der Visualisierungsauswahl – Beispiele (Abschnitt 3):

    • Umsatzzahlen ohne Nachbearbeitung vs. Kontextualisierung zur Gehaltserhöhung (Abb. 6): Rohdaten allein liefern wenig Aussagekraft; gezielte Kontextualisierung rückt Licht auf relevante Unterschiede.

    • Abschneiden vertikaler Achsen (Abb. 7): Durch Kürzen der y-Achse werden Unterschiede vergrößert; Gefahr der Verzerrung.

    • Ausblenden nicht benötigter Abstände (Abb. 8): Weitere Verdeckung von Abständen kann Interpretation beeinflussen.

    • Erscheinungsformen der Darstellung: Kurvendiagramm mit zwei Jahren und Durchschnittsauswertung; Entfernung der Achsenbeschriftung erschwert eigenständige Bewertung; direkter Vergleich (Abb. 9–11).

    • Nochmaliger direkter Vergleich: Rohdaten vs. bearbeitete Daten, Abb. 10–11.

  • Warum Kontext wichtig ist:

    • Kontextualisierung kann die Wahrnehmung verzerren oder erleichtern; die gleiche Datenmenge kann unterschiedliche Schlussfolgerungen zulassen, je nachdem, wie sie präsentiert wird.

    • Kritische Perspektive: Untersuchungsfragen bestimmen die Antworten (Teil des Konventionalismus).

  • Fazit der Kontextualisierung:

    • Datenvisualisierung braucht Transparenz in der Vorbearbeitung; unbeabsichtigte Verzerrungen sind leicht möglich, wenn Achsenlänge, Abstände oder Gruppierungen manipuliert werden.

Spezifität und Sensitivität

  • Grundidee: Ohne Angabe von Spezifität und Sensitivität lässt sich ein Test nicht sinnvoll bewerten.

  • Kontingenztafel – Begriffe (Tabellarische Definitionen):

    • TP = True Positive

    • FP = False Positive

    • FN = False Negative

    • TN = True Negative

  • Sensitivität und Spezifität:

    • Sensitivität: ext{Sensitivität} = rac{TP}{TP+FN}

    • Spezifität: ext{Spezifität} = rac{TN}{TN+FP}

  • Falschalarmrate und verwandte Begriffe:

    • Falschalarmrate (False Positive Rate) = rac{FP}{FP+TN} = 1 - ext{Spezifität}

    • False Non-Match Rate (FNR) = rac{FN}{FN+TP}

    • False Match Rate (FMR) bzw. False Positive Rate in Biometrie: ext{FMR} = rac{FP}{FP+TN}

    • False Non-Match Rate (FNMR) = rac{FN}{FN+TP} (entspricht FNR)

  • Gütemaßzahlen für Tests (Abb. 12): Darstellung von 14 Maßzahlen; zentrale Erkenntnis: Unbedingt definieren, welche Maße wann verwendet werden; zwei Bewertungsrichtungen sind immer nötig.

  • Trade-off: Sensitivität vs. Spezifität – höhe Sensitivität bedeutet viele Treffer, aber oft mehr Falschtreffer; hohe Spezifität bedeutet weniger Falschaussagen, aber potenziell verpasste Treffer.

  • Ein-Parameter-Tests (Schwellwert):

    • Beispiel: Fingerabdruck-Template-Distanz im Intervall [a, b] .

    • Grenzwert nahe a : Hohe Spezifität, geringe Sensitivität (wenig Fehlalarme, aber viele echte Finger werden verpasst).

    • Grenzwert nahe b : Hohe Sensitivität, geringe Spezifität (viele Treffer, aber mehr Fehlalarme).

    • Gleich nah bei Mitte: Kompromiss zwischen beiden Aspekten; oft wird der Gleichstellungswert als Relative Equal Error Rate (EER) genutzt, insbesondere in Biometrie: ext{EE R} = ext{FPR}( au) = ext{FNR}( au) ext{ an der Grenzwertwahl } au

  • Receiver Operating Curve (ROC) und Area Under the Curve (AUC):

    • ROC-Plot zeigt für verschiedene Schwellwerte die False Positive Rate (FPR) vs. True Positive Rate (TPR, identisch mit Sensitivität).

    • ROC-Abbildung (Abb. 13) vergleicht drei medizinische Ein-Parameter-Tests.

    • Area Under the Curve (AUC): ext{AUC} = ext{Integral}_{0}^{1} ext{ROC}(t)\, dt ; falls vollständige ROC nicht dargestellt, Vergleich mit reinem Raten und perfekter Klassifikation ist sinnvoll.

  • Praxisbeispiele – mediale Blamage und Statistikkompetenz (Abb. 15–20):

    • Sensationsberichte (z. B. Bild) über Krebsdiagnose; Fokus auf Sensationalismus statt statistische Korrektheit.

    • Unstatistik-Beiträge von Gigerenzer (Unstatistik 95, 88) als Kritik an fehlerhaften Darstellungen.

    • Fazit der Beispiele: Notwendigkeit genauer Definitionen, Transparenz in Methoden, und Skepsis gegenüber sensationalistischen Aussagen.

  • Disclaimer und Empfehlung (Abb. 39):

    • Didaktisch dramatisierte Auswahl, nicht-repräsentativ; vor invasiven Vorsorgeuntersuchungen: Informiere dich über Sensitivität, Spezifität, Risikoprofil, persönliche Faktoren.

    • Hinweis: Die Inhalte ersetzen keine individuelle ärztliche Beratung; persönliche Krankengeschichte berücksichtigt werden muss.

  • Persönliches Fazit (Abb. 40):

    • Vertrauen in Wissenschaft ist geschwächt; Bedingungen von Clickbait, Reputation, Geld und Macht beeinflussen die Darstellung;

    • Begrifflichkeiten wie fakem, alternative facts, Lügenpresse kritisch hinterfragen;

    • Notwendigkeit zur eigenständigen Reflexion, Offenheit gegenüber anderen Sichtweisen; drei Kern-Ursachen: begrenztes Vorwissen, Datenzugang via Dritte, vorgefilterte Daten.

Law of Small Numbers

  • Grundregel: Bei kleinen Stichproben gibt es eher Ausreißer als bei großen Stichproben.

  • Beispiele (Abschnitt 5):

    • Krebsraten in den 3141 Countys der USA: Counties mit minimalen Raten in ländlichen Gebieten; subjektive Vorurteile über Ursachen (klarer Luft, besseres Wasser, weniger Stress, gesunde Ernährung, mehr Bewegung, etc.).

    • Counties mit maximalen Raten ebenfalls ländlich; ähnliche Ursachenlisten (schlechtere medizinische Versorgung, Armut, schlechtere Lebensverhältnisse, mehr fettreiche Ernährung, geringerer Bildungsstand).

    • Ergebniskonsistenz: Die gleichen Daten führen zu widersprüchlichen Schlussfolgerungen – Ursache: unterschiedliche Verteilungen von Bevölkerungsgrößen und Stichprobengröße in den Gruppen.

  • Wichtiges Zusatzproblem: Korrelation vs. Kausalität – die geringe Stichprobengröße erhöht die Wahrscheinlichkeit, kausale Schlüsse falsch zu ziehen.

  • Fazit Law of Small Numbers: Bei kleinen Stichproben sind Ausreißer wahrscheinlicher; Korrelationen in kleinen Gruppen können trügerisch sein und nicht auf kausale Zusammenhänge hinweisen.

Schlussfolgerung

  • Zentrales Leitsatz: Jede Statistik verdient konstruktive Skepsis.

  • Wesentliche Aussagen:

    • Wichtige Ergebnisse passieren oft lange vor der statistischen Auswertung.

    • Politische/gesellschaftliche Fragen wie Wahlalter, Gerrymandering, etc. werden oft emotionalisiert diskutiert; vorgefasste Entscheidungen können wissenschaftliche Methoden beeinflussen.

    • Die Fragen der Gruppeneinteilung (Simpson) oder Vorselektion (Berkson) können zu emotionalen Debatten führen, wobei das Endergebnis als „wissenschaftlich gesichert“ präsentiert wird, obwohl es durch Vorbedingungen beeinflusst ist.

  • Hauptempfehlung: Vor einer Interpretation einer Statistik sollten vorhanden sein:

    • Vollständige Dokumentation der Datenerfassung

    • Öffentliche Verfügbarkeit aller erfassten Primärdaten

    • Vollständige Dokumentation der statistischen Auswertung

    • Statistische Sachkenntnis und kritische Prüfung der Methoden

  • Falsche vs. richtige Schlussfolgerungen (Zitat):

    • Falsche Schlussfolgerung: “Im übrigen glaube ich nur an die Statistik, die ich selbst gefälscht habe.” (Zitiert als Anekdote; kritisch zu werten; Irreführende Zitationen vermeiden.)

    • Richtige Schlussfolgerung: Konstruktive Skepsis; Statistik ist ein wichtiges mathematisches Auswertungsinstrument.

  • Kernerkenntnis: Nur durch vollständige Offenlegung und Prüfung der Mechanismen, Paradoxa und Daten lässt sich verlässliche Schlussfolgerungen ziehen.

Anmerkungen zu Abbildungen und Verzeichnissen (Hinweise aus dem Anhang)

  • Abb. und Tab.-Verweise dienen der Illustration der Paradoxa; Verzeichnisse der Abbildungen, Tabellen, Verzeichnisse der Folien und Rechtsnachweise finden sich im Anhang des Dokuments.

  • Wichtige Abbildungen im Kontext dieser Kapitel: Abb. 1–6 (Simpsonsches Paradoxon visuell), Abb. 5–7 (Berksonsches Paradoxon-Abbildungen), Abb. 9–11 (Kontextualisierung-Varianten), Abb. 12–20 (Spezifität/Sensitivität-Darstellungen) sowie weitere Abbildungen zur Krebsdiagnose und zu Mediensensationen.

Formeln und zentrale Begriffe (Zusammenfassung der Kernformeln)

  • Sensitivität: ext{Sensitivität} = rac{TP}{TP+FN}

  • Spezifität: ext{Spezifität} = rac{TN}{TN+FP}

  • Falschalarmrate (False Positive Rate): ext{FPR} = rac{FP}{FP+TN} = 1 - ext{Spezifität}

  • False Non-Match Rate (FNMR): ext{FNMR} = rac{FN}{FN+TP} = ext{FNR}

  • False Match Rate (FMR) in Biometrie: ext{FMR} = rac{FP}{FP+TN}

  • Equal Error Rate (EE R): Grenzwert, bei dem FPR = FNR; oft verwendet als Nebenbedingung in ROC-Analysen.

  • ROC und AUC:

    • ROC: Zusammenhang zwischen FPR (X-Achse) und TPR/Sensitivität (Y-Achse) über verschiedene Schwellenwerte.

    • AUC: ext{AUC} = ext{Area under the ROC curve} = ext{Integral}_{0}^{1} ext{ROC}(t)\, dt

Hinweis zur Struktur der Inhalte: Die hier dargestellten Notizen fassen die wichtigsten und auch die kleineren Aspekte der Folien zusammen, einschließlich konkreter Beispiele, Abbildungen (Abb./Tab.), und die daraus abgeleiteten Lehren. Nutze diese Notizen als komprimierte, aber vollständige Orientierung, um dich schnell auf das Thema vorzubereiten."