Czym zajmuje się psychometria?
Psychometria – gałąź psychologii, która zajmuje się określaniem warunków, jakie powinny spełniać narzędzia wykorzystywane do pomiaru cech psychologicznych, oraz budowaniem modeli wiążących wyniki takich pomiarów z rzeczywistymi wartościami mierzonych cech.
Reguły, które charakteryzują pomiar cech psychologicznych:
Cechy psychologiczne powinny być definiowane nie tylko w terminach operacyjnych, ale także w terminach związków z innymi konstruktami teoretycznymi czy obserwowalnymi zjawiskami
Wg Lord i Novick konstrukty psychologiczne powinny byd zawsze definiowane na dwóch poziomach:
Definicje semantyczne, definicje synktaktyczne
Definicje semantyczne
określają przedmiot pomiaru (zakres obserwowalnych zachowao, które będą rejestrowane)
Definicje syntaktyczne
dostarczają ram interpretowania wyników, wiążą mierzony konstrukt z innymi konstruktami w ramach danego systemu teoretycznego
Realizacja pomiaru psychologicznego
Żadna realizacja pomiaru psychologicznego nie ma charakteru uniwersalnego - różne definicje operacyjne prowadzą do różnych procedur, a te z kolei do różnych wniosków końcowych -> ten sam wynik uzyskany za pomocą różnych narzędzi ma zupełnie inne znaczenie psychologiczne
Pomiar psychologiczny jest najczęściej oparty na
ograniczonej próbce zachowań
Wyniki pomiaru psychologicznego
Wyniki pomiaru psychologicznego zawsze są obarczone pewnym błędem – przy powtórnym pomiarze wyniki zawsze trochę się różnią, bo działa np. zapominanie, zgadywanie, chwilowe fluktuacje uwagi
Wyniki pomiaru psychologicznego nie zawsze przekładają się na skale o dobrze zdefiniowanych jednostkach
W ramach psychometrii (in. teorii testów) podejmuje się wiele zagadnień
sposoby budowania pozycji testowych
opracowanie kryteriów wyboru pozycji testowych o najlepszych parametrach
zasady przekształcania odpowiedzi testowych na wyniki liczbowe
zasady oceny jakości wyników i ich interpretacji
zasady określania stopnia stronniczości wyników testowych względem określonej grupy społecznej
Psychometria różni się od pomiaru psychologicznego poprzez
Psychometria ( in. teoria testów) dostarcza modelowych rozwiązao – i tym różni się od pomiaru psychologicznego, który dotyczy raczej szczegółowych zasad posługiwania się konkretnymi metodami.
Dwie podstawowe teorie psychometrii:
Teoria losowego doboru próby
Teoria odpowiadania na pozycje testowe
Teoria losowego doboru próby
Teoria losowego doboru próby – ujmuje związek między obserwowanym wynikiem i prawdziwą wartością mierzonej cechy jako problem generalizacji danych z próby na populację
Teoria odpowiadania na pozycje testu
Teoria odpowiadania na pozycje testu – w tej teorii zakłada się, że określenie sposobu, w jaki osoba badana odpowiada na kolejne pozycje testu, pozwala na bezpośrednie określenie rzeczywistego wyniku tej osoby
Test psychologiczny jest narzędziem, które:
pozwala na uzyskanie takiej próbki zachowań, o których można przyjąd (np. na podstawie założeń teoretycznych), że są wskaźnikami interesującej nas cechy psychologicznej
dostarcza reguł obliczania wartości mierzonej cechy
jest obiektywne, wystandaryzowane, trafne, rzetelne i znormalizowane
jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty
zakłada kooperacyjną postawę osoby badanej
Podziały testów ze względu na
Kryterium standaryzacji
Kryterium wydajności
Kryterium czasowe
Sposób obliczania wyników
Rodzaj zadań
Rodzaj możliwej odpowiedzi
Sposób interpretacji wyników
kryterium standaryzacji
standaryzowane – mają dokładnie sprecyzowane zasady stosowania i są wyposażone w normy, otrzymane w wyniku przebadania reprezentatywnej próby pochodzącej z populacji, dla której test ma być stosowany
niestandaryzowane
kryterium wydajności:
indywidualne
grupowe
kryterium czasowe:
testy szybkości – czas rozwiązania jest ograniczony, z założenia żadna osoba nie powinna skończyć takiego testu w wyznaczonym czasie; zadania niezbyt trudne
testy mocy – dają każdej osobie badanej szansę na rozwiązanie wszystkich pozycji testu; trudność zadań w teście stopniowo rośnie
sposób obliczania wyników:
obiektywne – posiadają stałe, starannie opracowane metody obliczania wyników
nieobiektywne
rodzaj zadań z jakich są zbudowane:
słowne
bezsłowne
rodzaj możliwej odpowiedzi:
testy właściwości poznawczych – testy mierzące wytwory procesów poznawczych (np. testy zdolności czy uwagi); każde zadanie ma ściśle określoną prawidłową odpowiedź
testy właściwości afektywnych – testy mierzące postawy, wartości, zainteresowania i inne, pozapoznawcze, aspekty osobowości; nie istnieje kategoria odpowiedzi prawidłowe
sposób interpretacji wyników:
zorientowane na normy – punktem odniesienia dla interpretacji wyników jest konkretna populacja osób
zorientowane na kryterium – punktem odniesienia jest zakres wiedzy
Kryteria dobroci testów psychologicznych
Obiektywność
Standaryzacja
Rzetelność
Trafność
Normalizacja
Adaptacja kulturowa
Obiektywność
to niezależność wyników testowych od tego, kto, gdzie i kiedy dokonuje ich oceny - do zbadania obiektywności testu służy technika tzw. ślepej diagnozy – rozsyła się ten sam wypełniony test do różnych osób, jeśli otrzymane wyniki i ich interpretacje są podobne -> test jest obiektywny
Standaryzacja
to jednolitość reguł badania danym testem - obejmuje takie elementy sytuacji testowania jak: instrukcja, pomoce, zasady oceniania i interpretowania wyników (z tego najważniejsza jest instrukcja – jej przestrzeganie jest podstawowym elementem gwarantującym powtarzalnośd wyników badania)
Rzetelność
dokładność realizowanego pomiaru; mówi nam o tym, w jakim stopniu wynik danego testu odzwierciedla poziom mierzonej cechy u danej osoby, a nie wpływ czynników losowych
Trafność
dokładność, z jaką test realizuje założone cele pomiarowe - trzeba pamiętad, że trafność zawsze dotyczy konkretnego zastosowania – nie ma testów, które można stosowań wszędzie i w każdym celu
Normalizacja
to procedura wyposażania testu w statystyczne kryteria interpretacji wyniku testowego (normy)
Adaptacja kulturowa
przystosowanie określonego testu do nowych warunków kulturowych
Przystępując do kulturowej adaptacji testu można przyjąd dwie różne strategie
Strategię psychometryczną
Strategię pragmatyczną
Strategia psychometryczna
kryterium tożsamości jest empirycznie potwierdzone podobieostwo rozkładów odpowiedzi na pozycje testowe i/lub rozkładów wyników globalnych
Strategia pragmatyczna
kryterium jest podobieostwo funkcji, jaką ma pełnić dana technika i decyzje oparte na uzyskanych za jej pomocą wynikach
Warynki jakie powinien spełniać dobry test
Proces wnioskowania psychometrycznego
proces wyprowadzania wniosków o wartościach cech psychologicznych badanych osób na podstawie wyników, jakie otrzymały one w testach psychologicznych.
Schemat procesu wnioskowania psychometrycznego
Wynik obserwowalny
to wynik, jaki badana osoba otrzymuje w teście psychologicznym
Wynik prawdziwy
to wynik odzwierciedlający rzeczywistą wartośd mierzonej cechy u danej osoby
Rzetelność
(wielkość współczynnika korelacji między wynikiem obserwowanym a prawdziwym) mówi nam, w jakim stopniu nieobserwowane wyniki prawdziwe wyjaśniają wariancję wyników obserwowanych)
Trafność
jest związkiem zachodzącym między wynikiem prawdziwym a przedmiotem pomiaru
KTT Rzetelność
termin odnoszący się do powtarzalności wyników; zgodność wyników otrzymanych przez te same osoby przebadane kilka razy tym samym testem wszystkie pomiary są w pewnym stopniu nierzetelne- otrzymany wynik nigdy nie jest idealnym odzwierciedleniem rzeczywistej wartości mierzonej cechy i zawsze obciążony jest pewnym błędem
Źródła błędu w pomiarze testowym
Błąd semantyczny
Błąd losowy
Błąd semantyczny
spowodowany stałymi cechami osoby badanej lub narzędzia pomiarowego, nie mający nic wspólnego z mierzoną cechą psychologiczną nie jest przyczyną braku powtarzalności wyników pomiaru, jednak wpływając na wyniki testowe zmniejsza ich użytecznośd
Błąd losowy
powstały w wyniku działania przyczyn przypadkowych; może zarówno zmniejszać jak i zwiększać wynik testowy; sprawia, że wyniki testowe nie są ani powtarzalne, ani użyteczne
Źródła błędu losowego w badaniu testowym
Klasyczny model wyniku prawdziwego
każdy wynik obserwowany w teście jest składową dwóch, nieobserwowalnych bezpośrednio wielkości- wyniku prawdziwego oraz błędu pomiaru stąd równanie klasycznej teorii testów: X= T+E X
- wynik otrzymany w teście;
T- wynik prawdziwy (true score);
E- błąd pomiaru (error)
oraz trzy założenia:
założenie o nieobciążoności narzędzia pomiarowego
założenie o niezależności
nie istnieje żaden związek pomiędzy błędami otrzymanymi w dwóch kolejnych badaniach tym samym testem (gdyż błąd ma charakter losowy)
założenie o nieobciążaności narzędzia pomiarowego
błędy mają charakter wyłącznie losowy (rozkład normalny, średnia wynosi zero)
M g = 0
M g - średnia arytmetyczna błędu
założenie o niezależności
nie ma związku między wynikiem prawdziwym a błędem pomiaru
rTE = 0
TE r - współczynnik korelacji między wynikiem prawdziwym a błędem pomiaru
korelacja między błędami w dwóch badaniach tym samym testem
nie istnieje żaden związek pomiędzy błędami otrzymanymi w dwóch kolejnych badaniach tym samym testem (gdyż błąd ma charakter losowy)
rE1E2 = 0
rE1E2 - korelacja między błędami w dwóch badaniach tym samym testem
Wskaźnik rzetelności
współczynnik korelacji pomiędzy wynikami obserwowanymi a wynikami prawdziwymi Oto definicja rzetelności testu
kwadrat współczynnika korelacji pomiędzy wynikami otrzymanymi i prawdziwymi,
kwadrat odchylenia standardowego wyników prawdziwych,
kwadrat odchylenia standardowego wyników otrzymanych (jako że jest to opracowanie, w tym i kolejnych wzorach podaję jedynie ostateczną wersję równania pomijając cały pasjonujący proces jego wyprowadzania)
Rzetelność testu
to kwadrat korelacji pomiędzy wynikami otrzymanymi a wynikami prawdziwymi, czyli stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Mówi nam w jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych.
Testy równoległe
testy mierzące to samo tak samo tyle że składające się z pozycji o różnej treści
Testy równoległe muszą
średni wynik otrzymany w teście A równy jest średniemu wynikowi testu B
odchylenie standardowe wyników w teście A jest równe os wyników w teście B
interkoleracje pozycji w teście A są takie same jak interkoleracje w teście B
współczynnik korelacji wyników otrzymanych w teście A z pewną zmienną Z, jest taki sam jak współczynnik korelacji wyników testu B z tą zmienną
Współczynnik korelacji między wynikami dwóch testów równoległych
jest równy stosunkowi wariancji wyników prawdziwych do otrzymanych – czyli rzetelności testu
Współczynnik rzetelności testu
współczynnik korelacji między wynikami dwóch testów równoległych
współczynnik rzetelności interpretujemy
odsetek wariancji wyników otrzymanych, jaką możemy przypisad wynikom prawdziwym
Metoda powtarzania testu ( technika test-retest )
Dwukrotne badanie tym samym testem
Współczynnik stabilności bezwzględnej
gdy miedzy testem i retestem następuje pewien odstęp czasowy (informuje o wrażliwości testu na przypadkowe zmiany zarówno osoby badanej, jak i warunków badania; przerwa czasowa powinna byd na tyle długa by badany zapomniał swe odpowiedzi i jednocześnie na tyle krótka by w jej trakcie nie doszło do zmiany mierzonej właściwości podmiotowej – zazwyczaj waha się ona od kilku tygodni do kilku miesięcy)
współczynnik wiarygodności testu
gdy retest następuje bezpośrednio po teście (informuje o wrażliwości testu na przypadkowe czynniki związane z osobą badaną których zmiennośd jest krótsza niż czas badania- np. chwilowe fluktuacje uwagi) krytyka: nadmierny wpływ niekontrolowanych czynników technika ta głównie nadaje się do testów, w których powtarzanie badania nie wpływa istotnie na wynik testowania (np. testy motoryczne, różnicowania sensorycznego)
Metoda wersji równoległych ( alternatywnych)
Badani wypełniają dwie równoległe wersje danego testu:
bez przerwy czasowej – wskaźnik równoważności międzytestowej
z przerwą czasową- wskaźnik stabilności względnej
wskaźnik równoważności międzytestowej
informuje w jakim stopniu wariancja błędu zależy od różnic między dwiema wersjami testu
wskaźnik stabilności względnej
jest jednocześnie miarą stabilności wyników testowych i wpływu treści na wyniki testowe
Szacowanie rzetelności na podstawie jednokrotnego badania danym testem:
Metoda połówkowa
Podział testu na dwie, równoległe względem siebie połowy: o Losowe przydzielenie o Pozycje parzyste i nieparzyste o Podział z uwzględnieniem treści i trudności
Dzięki metodzie połówkowej
Otrzymujemy współczynnik równoważności międzypołówkowej- trzeba jednak pamiętad, że jest to oszacowanie rzetelności jedynie połowy testu, ale na jego podstawie możemy obliczyd całośd za pomocą wzoru Spearmana-Browna
Badanie zgodności wewnętrznej
Analiza właściwości statystycznych poszczególnych pozycji testowych w poszukiwaniu ich zgodności (współczynnika zgodności wewnętrznej- im on wyższy tym jednorodniejsze pozycje testowe) przynosi informacje o rzetelności całego testu.
Wzory Kudera-Richardsona
KR20- gdy analizowana jest średnia wariancja pozycji testowych
KR21- gdy analizowana jest średnia trudnośd pozycji testowych (wymaga założenia o jednakowej ich trudności)
Jednak te wzory szacują rzetelnośd jedynie w testach złożonych z pozycji dwukategorialnych, tzn. zawierających jedynie dwa rodzaje odpowiedzi- diagnostyczne (poprawne) i niediagnostyczne (niepoprawne) Ograniczenie to przezwyciężył Cronbach, tworząc swe znane rozszerzenie wielokategorialne:
Alfa Cronbacha
k - liczba pozycji testowych
Σσ - suma wariancji dla poszczególnych pozycji testowych
σ2x - wariancja ogólnych wyników w teście
Współczynnik stabilności względnej -
najbardziej rygorystyczny, dolna granica
Współczynnik równoważności miedzy połówkowej
liberalny, górna granica
Standardowy błąd pomiaru
jest to odchylenie standardowe różnic X-T (wynik otrzymany- wynik prawdziwy). Jest to błąd, który popełniamy gdy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskooczenie wielu pomiarach tym samym testem; ma rozkład normalny
Standardowy błąd pomiaru wzór
Przedział ufności
pozwala na ocenę precyzji wniosków o wyniku prawdziwym osoby badanej. Przedział ufności określa granice, w których ( z określonym prawdopodobieostwem) znajduje się prawdziwy wynik osoby badanej.
Podstawowa metoda budowania przedziału ufności
polega na odcięciu od wyniku otrzymanego pewnej stałej wartości (otrzymujemy dolną granicę) i dodaniu do niego tej samej wartości ( co ustala górną granicę przedziału). Ta stała wartość to iloczyn wyniku standaryzowanego z i standardowego błędu pomiaru.
Obliczenie przedziału ufności dla estymowanego wyniku prawdziwego
Standardowy bład estymacji
odchylenie standardowe rozkładu różnic miedzy T* i T`, a więc między estymowaną wartością wyniku prawdziwego i jego wartością rzeczywistą; ma rozkład normalny
Decyzja o wyborze szerokości przedziału ufności wiąże się z
powinien być na tyle precyzyjny by można mied zaufanie co do wartości wyniku otrzymanego 2) powinien byd na tyle wąski by nie sprawiał kłopotów interpretacyjnych
Im większy przedział ufności tym
mniejszy błąd (np. 90% przedział oznacza, że na 100 badao tym samym testem wyniki danej osoby jedynie w 10 przypadkach znalazłyby się poza przedziałem)
ale też szerszy (o odleglejszych granicach) przedział, zakres- co może powodowad trudności interpretacyjne i klasyfikacyjne przy dopasowywaniu do znormalizowanej skali (interpretacja przedziałowa)
Jakie stosuje się przedziały ufności
dla potrzeb diagnozy indywidualnej stosuje się 90% przedziały ufności w badaniach naukowych ustala się 95% przedziały ufności
Badania międzyosobnicze
(np. sprawdzenie czy różnica w wynikach dwóch osób jest rzetelna i pozwala ich różnicować)
Standardowy błąd różnicy
jest to odchylenie standardowe wszystkich możliwych różnic miedzy dwoma wynikami
szczegółowe wersje tego wzoru pozwalają na porównywanie zarówno wyników z tego samego jak i z różnych testów
Teoria uniwersalizacji
(twórca – Cronbach)
W wielu sytuacjach niemożliwe jest otrzymanie dwóch pomiarów (czy to za pomocą powtórnego testowania, czy też dzielenia testu na części).
Gdy klasyczna koncepcja błąd pomiaru pozostawia na poziomie ogólnego założenia o jego losowości, teoria uniwersalizacji sprowadza błąd do konkretnej sytuacji i kontekstu testowania, poszukując jego źródeł i powodowanej przez niego wariancji.
W miejsce silnego założenia o równoległości testu przyjmuje się założenie słabsze o tzw. losowej równoległości- dwa testy są losowo równoległe gdy można przyjąd, że pozycje tych testów są losowymi próbkami pobranymi z tego samego uniwersum pozycji.
Możemy obliczyd tyle współczynników rzetelności ile pytao dotyczących źródeł błędu potrafimy sformułowad
Wariancja
wielkość zróżnicowania otrzymanych wyników wokół ich wartości średniej.
opisuje wielkość błędu jaki popełniamy traktując średni wynik jako dobre odzwierciedlenie wszystkich
Mała wariancja
(niewielkie zróżnicowanie wokół średniej) wskazuje że wynik średni dobrze (rzetelnie) odzwierciedla wyniki indywidualne
Duża wariancja
wskazuje, że wartości średniej nie można brad za rzetelna miarę wyników indywidualnych.
Źródła wariancji
Wewnątrz osoby oceniającej
Między osobami oceniającymi
Brak zgodności wewnętrznej między pozycjami testowymi
Wariancja między osobami badanymi
Wariancja błędu
Wszelkie źródła wariancji niepożądanej z punktu widzenia jakości pomiaru
Wariancja prawdziwa
pożądana wariancja między osobami badanymi, wskaźnik stopnia zróżnicowania miedzy osobami badanymi
Przedmiot pomiaru
w ten sposób określamy źródło wariancji prawdziwej ( a tu rzecz nie jest już tak prosta jak w klasycznej teorii- przedmiotem pomiaru mogą byd nie tylko osoby badane, ale np. osoby oceniające wyniki testu). W zależności od przedmiotu pomiaru różne wariancje są różnie interpretowane i mają różne znaczenie. Czynniki pomiaru- to w teorii uniwersalizacji źródła wariancji błędu. Wariancja k
Czynniki pomiaru
o w teorii uniwersalizacji źródła wariancji błędu. Wariancja która stanowi przedmiot pomiaru to wariancja prawdziwa- wszelkie inne źródła powodują wariancję błędu.
Czynniki losowe
poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika Czynniki stałe- poziomy tych czynników się nie zmieniają (wystandaryzowane warunki badania)
Wynik uniwersalny
poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika Czynniki stałe- poziomy tych czynników się nie zmieniają (wystandaryzowane warunki badania)
Trafność teoretyczna
stopień, w jakim wnioski wyprowadzone na podstawie wyników testowych odzwierciedlają pozycję osoby badanej na pewnym teoretycznym kontinuum, zwanym konstruktem; oceniania na podstawie kumulacji wielu badań
Trafnośń treściowa
Określenie zakresu uniwersum treści danej dziedziny ( najczęściej przy pomocy sędziów-ekspertów ) i następnie stwierdzenie w jakim stopniu pozycje składające się na test można traktowad jako reprezentatywną próbkę zdefiniowanego uniwersum (proporcjonalne odtworzenie). Test jest trafny treściowo gdy:
1) wszystkie jego pozycje należą do zdefiniowanego uniwersum
2) cały test proporcjonalnie reprezentuje owo uniwersum
Praktyczne określenie trafności treściowej polega na przeprowadzeniu analizy logicznej- dysponujący definicją uniwersum sędziowie kompetentni oceniają stopieo, w jakim każda pozycja testowa reprezentuje to uniwersum. Lavshe- współczynnik trafności treściowej