VL 3 - Klassische Testtheorie und Testgütekriterien Kompakt

Gegenstand der Testtheorie

Die Testtheorie beschäftigt sich mit der Entwicklung, Validierung und Anwendung psychologischer Testverfahren, die darauf abzielen, Persönlichkeitsmerkmale, Fähigkeiten, Eigenschaften, Fertigkeiten und Zustände systematisch zu erfassen. Diese Verfahren sind nicht nur nützlich für die Diagnostik, sondern auch für die Forschung in Psychologie, Sozialwissenschaften und verwandten Disziplinen.

Psychologische Testverfahren:

Routineverfahren zur Erfassung von Persönlichkeitsmerkmalen, die in unterschiedlichen Kontexten (z. B. klinische Diagnostik, Personalwesen, Bildungsförderung) eingesetzt werden.
Die Feststellung von Ausprägungen und Zuständen erlaubt eine differenzierte Analyse und Interpretation individueller Merkmale.
Testverfahren sind theoretisch fundiert und müssen strengen Gütekriterien standhalten, um ihre Genauigkeit und Zuverlässigkeit zu gewährleisten.
Die Erfassung von Fähigkeiten, Eigenschaften (wie Temperament), Fertigkeiten und Zuständen ermöglicht eine präzise psychologische Profilierung.

Klassische Testtheorie (KTT)

Die Klassische Testtheorie, die als erste Theorie psychometrischer Tests entstand, stellt eine Basis dar, auf der über 90% der psychologischen Tests entwickelt wurden. Diese Theorie bietet ein kognitives Gerüst zur Abschätzung der Messgenauigkeit und versucht, die Varianz im Testergebnis durch systematische und unsystematische Fehler zu erfassen.

Leistung variiert durch messsystematische Fehler, die unterschiedliche Ursachen haben können, wie z. B. Ablenkungen, Motivation und Testangst.
Durch mehrmalige Messungen kann die Genauigkeit der Testergebnisse erhöht werden; dies geschieht häufig durch den Einsatz von Retest-Prozeduren oder parallelen Testformen.
Unterschiede in den Testergebnissen sollten durch unterschiedlich schwierige Items sichtbar werden, die verschiedene Fähigkeitsniveaus ansprechen.

Messfehler in der KTT

Messungen sind nie vollkommen und sind deshalb unvorhersehbaren, unsystematischen Einflüssen ausgesetzt. In der KTT werden Messfehler als zufällig betrachtet, was bedeutet, dass sie unabhängig von den wahren Leistungswerten auftreten.

Ein bedeutender Nachteil der KTT ist die Vernachlässigung systematischer Fehler, die durch Lern- und Transfereffekte entstehen können, was die Gültigkeit der Testergebnisse infrage stellt.

Grundannahmen der KTT (Axiome)

Wahrer Wert (𝜇): Der Erwartungswert der Messungen, den ein Individuum unter perfekten Bedingungen erreichen kann.
Beobachteter Wert (X): Der tatsächlich gemessene Wert, der durch verschiedene Einflüsse verzerrt sein kann.
Messfehler (𝜖): Die Differenz zwischen dem wahren Wert und dem beobachteten Wert, die als Fehlerquelle in der Testmessung dient.

Wichtige Gleichungen

Die KTT bietet verschiedene mathematische Modelle zur Analyse von Testdaten:

Funktion zur Beschreibung des Zusammenhangs zwischen wahrem und beobachtetem Wert:
$𝑋 = 𝜇 + 𝜖$
Erwartung des Messfehlers:
$E(𝜖_{vt}) = 0$
Gesamtmessung:
$𝑥<em>{vt} = 𝜇 + 𝜖</em>{vt}$

Messgenauigkeit

Die Varianz der beobachteten Werte setzt sich zusammen aus:

$ext{Varianz der wahren Werte} ext{(σ²T)} + ext{Fehlervarianz} ext{(σ²E)}$

Die zentrale Schlussfolgerung lautet: Messfehler sind unkorreliert mit den wahren Werten aus anderen Tests, was bedeutet, dass sie die Messungen unabhängig beeinflussen sollten.

Kritik an der KTT

Die KTT hat ihre Beschränkungen:

Sie analysiert nur nachträglich, ohne das Antwortverhalten oder systematische Fehler während der Testdurchführung zu berücksichtigen.
Die Annahme von Eindimensionalität der getesteten Merkmale wird in der Praxis häufig infrage gestellt.
Es gibt Bedenken hinsichtlich der Annahme unkorrelierter Messfehler und deren Einfluss auf die Validität der Testkennwerte.
KTT-Kennwerte sind zudem stichprobenabhängig, was bedeutet, dass sie variieren können, abhängig von der spezifischen Sample-Größe und -Zusammensetzung.

Alternativen zur KTT: Item-Response-Theorie (IRT)

Die Item-Response-Theorie (IRT) stellt eine modernere Herangehensweise dar, die strenger und differenzierter ist als die KTT:

Sie bietet probabilistische Aussagen über das Antwortverhalten der Probanden und deren wahres Fähigkeitsniveau.
Eine zentrale Voraussetzung der IRT ist die lokale stochastische Unabhängigkeit, was bedeutet, dass Items unabhängig voneinander beantwortet werden sollten, ohne dass die Antwort auf ein Item die Antwort auf ein anderes beeinflusst.

Testgütekriterien

Ein psychometrischer Test wird anhand von mehreren Kriterien beurteilt, die in Haupt- und Nebengütekriterien unterteilt werden:

Hauptgütekriterien:
- Objektivität: Ergebnisse sind unabhängig von der Testadministration, dem Testerverhalten und der Auswertung/Interpretation der Daten.
- Reliabilität: Präzision oder Messgenauigkeit eines Tests, dort je höher die Reliabilität, desto geringer der Messfehler.
- Validität: Maß für die Gültigkeit und Aussagekraft der Testergebnisse.
Nebengütekriterien: Dazu gehören Skalierung, Zumutbarkeit, Normierung, Fairness, Ökonomie, Nützlichkeit, Verfälschbarkeit.

Objektivität

Die Objektivität der Testergebnisse ist ein kritischer Faktor für die Anwendbarkeit psychologischer Tests. Sie gewährleistet, dass die Testergebnisse sodass sämtliche interessierten Parteien, unabhängig von Testadministration und Interpretation, zu denselben Ergebnissen gelangen können.

Reliabilität

Die Reliabilität ist ein Maß für die Konsistenz und Stabilität der Testergebnisse über verschiedene Testbedingungen:

Es gibt mehrere Schätzmethoden für die Reliabilität:
- Retest-Reliabilität: Korrelationswert zwischen wiederholten Messungen.
- Paralleltest-Reliabilität: Korrelationswert zwischen parallelen Testformen.
- Split-half-Reliabilität: Korrelationswert zwischen zwei Hälften des Tests.
- Interne Konsistenz: Korrelationswert zwischen allen möglichen Testteilen.

Reliabilität und Testlänge

Die Anzahl der Item beeinflusst die Reliabilität eines Tests direkt:

Generell gilt: je mehr Items vorhanden sind, desto höher ist die Zuverlässigkeit. Dies wird oft durch die Prophecy-Formel abgebildet, die die Reliabilität basierend auf der Testlänge vorhersagt.

Standardmessfehler

Der Standardmessfehler stellt eine Schätzung der Abweichung des beobachteten Wertes vom wahren Wert dar. Er wird durch die folgenden Formeln geschätzt:

$s_e = rac{s}{ ext{√(1−r)}}$

Das Konfidenzintervall für den wahren Wert wird berechnet durch:

$ext{Konfidenzintervall} = X<em>v - 1.96 * s</em>e$

Fazit

Trotz der kritischen Anmerkungen zur KTT bleibt sie in der Praxis nützlich und weit verbreitet. Es ist entscheidend, die Schwächen der KTT zu kennen, um die Testkonstruktion und -anwendung zu optimieren und Missverständnisse bei der Interpretation der Testergebnisse zu vermeiden