week 4 - statistical concepts
Introduction
Peran statistik dalam asesmen psikologis:
Membantu mengorganisasi, merangkum, dan menginterpretasi data.
Memungkinkan evaluator menilai sifat psikometri tes: reliabilitas, validitas, dan standardisasi.
Dua kelas utama metode statistik:
Descriptive statistics → mendeskripsikan dan merangkum data dalam bentuk yang jelas dan mudah dipahami.
Inferential statistics → membuat generalisasi/inferensi tentang populasi berdasarkan data dari sampel acak.
Variable
Definisi: sesuatu yang bisa memiliki lebih dari satu nilai.
Contoh dalam asesmen: achievement, intelligence, personality traits.
Variabel menjadi fokus utama dalam pengukuran psikologis.
Measurement
Measurement: proses memberi angka/simbol untuk mewakili objek, traits, atau perilaku sesuai aturan logis.
Contoh: skala 1–10 kepuasan pelanggan (1 = sangat tidak puas, 10 = sangat puas).
Penting karena tanpa pengukuran, variabel abstrak tidak bisa dibandingkan/diolah.
Scale of Measurement
3 properti dasar:
Magnitude: urutan dari kecil ke besar.
Equal interval: jarak antar angka sama.
Absolute zero: nol mutlak = ketiadaan atribut.
Jenis skala:
Nominal: hanya kategori/nama (tidak ada urutan). Contoh: jenis kelamin, agama.
Ordinal: urutan peringkat (ada magnitude). Contoh: ranking kelas, skala likert.
Interval: urutan + jarak sama, tapi tanpa nol mutlak. Contoh: suhu (Celsius/Fahrenheit).
Ratio: urutan + jarak sama + nol mutlak. Contoh: usia, tinggi, berat.
Describing Scores
Untuk mengorganisasi banyak skor, digunakan descriptive statistics:
Frequency distribution: menyusun skor acak menjadi urut.
Measures of central tendency: mean (rata-rata), median (nilai tengah), mode (nilai yang sering muncul).
Measures of variability: seberapa menyebar skor (range, variance, standar deviasi).
Measures of relationship: hubungan antar variabel (misalnya korelasi Pearson).
Assessment Scores
Raw score: jumlah benar → tidak bermakna sebelum dibandingkan.
Skor bermakna jika dibandingkan dengan:
Criterion-referenced scores: dibandingkan dengan standar tetap (misal cut-off lulus).
Norm-referenced scores: dibandingkan dengan kelompok norma (norm group).
Criterion-referenced Scores
Interpretasi dalam istilah absolut (persentase, kategori performa).
Umumnya ada cut-off score (contoh: minimal 70% untuk lulus).
Norm-referenced Scores
Dibandingkan dengan norm group (kelompok representatif yang dijadikan standar).
Syarat norm group: representatif, terkini (±10 tahun revisi), ukuran sampel memadai.
Jenis skor norm-referenced:
Percentile ranks (PR): posisi relatif dalam distribusi skor (0–99). Misal PR 85 = performa lebih baik dari 85% peserta lain.
Standard scores: transformasi raw score dengan distribusi normal. Contoh: z-score, T-score, IQ, stanine, sten.
Grade/Age equivalents: menunjukkan level kelas/usia rata-rata yang sesuai skor individu.
Reliability
Definisi: konsistensi, stabilitas, dan dependabilitas skor tes.
Jika diukur ulang dengan kondisi sama, hasil harus relatif sama.
Rumus umum: Observed \ score = True \ score + Measurement \ error
Semakin besar error → reliabilitas semakin rendah.
Sumber Measurement Error
Time-sampling error: fluktuasi skor karena perbedaan waktu (contoh: mood berbeda). Bisa timbul carryover effect atau practice effect.
Content-sampling error: item tes tidak mewakili domain konstruksi dengan baik.
Interrater differences: perbedaan antar penilai bila tes bergantung pada subjektivitas.
Lain-lain: kualitas item, panjang tes, faktor peserta (motivasi, kesehatan), kondisi administrasi (noise, suhu, instruksi).
Validity
Definisi: sejauh mana interpretasi hasil tes tepat, bermakna, dan sesuai tujuan.
Validitas membuktikan bahwa tes benar-benar mengukur apa yang diklaim.
Reliabilitas adalah syarat perlu, tapi tidak cukup untuk validitas.
Ancaman terhadap Validitas
Construct underrepresentation: tes terlalu sempit → aspek penting tidak terukur.
Construct irrelevant variance: tes terlalu luas → ada variabel tidak relevan.
Faktor penyebab:
Item tes: ambigu, tidak relevan, terlalu sedikit, pola jawaban mudah ditebak.
Administrasi & scoring: instruksi salah, bantuan tidak adil, error scoring.
Karakteristik peserta: test anxiety, kurang motivasi, gangguan emosi.
Kelompok tes tidak sesuai dengan validation sample.
Sumber Bukti Validitas
Content validity: kesesuaian isi tes dengan domain konstruk.
Metode: table of specification, penilaian ahli.
Criterion-related validity: hubungan skor tes dengan variabel eksternal.
Concurrent validity: dibandingkan dengan kriteria saat yang sama.
Predictive validity: memprediksi performa di masa depan.
Construct validity: kesesuaian skor dengan konstruk teoritis.
Convergent validity: korelasi tinggi dengan tes lain yang sejenis.
Discriminant validity: korelasi rendah dengan tes yang berbeda konstruk.
Face validity: apakah tes tampak sesuai secara kasat mata bagi peserta/observer (lebih ke persepsi, bukan bukti teknis).
Hubungan Reliability dan Validity
Reliabilitas tinggi ≠ validitas terjamin.
Tes bisa konsisten tapi salah sasaran.
Jika reliabilitas rendah → validitas mustahil.