week 4 - statistical concepts

Peran statistik dalam asesmen psikologis:
- Membantu mengorganisasi, merangkum, dan menginterpretasi data.
- Memungkinkan evaluator menilai sifat psikometri tes: reliabilitas, validitas, dan standardisasi.
Dua kelas utama metode statistik:
1. Descriptive statistics → mendeskripsikan dan merangkum data dalam bentuk yang jelas dan mudah dipahami.
2. Inferential statistics → membuat generalisasi/inferensi tentang populasi berdasarkan data dari sampel acak.

Measurement: proses memberi angka/simbol untuk mewakili objek, traits, atau perilaku sesuai aturan logis.
Contoh: skala 1–10 kepuasan pelanggan (1 = sangat tidak puas, 10 = sangat puas).
Penting karena tanpa pengukuran, variabel abstrak tidak bisa dibandingkan/diolah.

3 properti dasar:
1. Magnitude: urutan dari kecil ke besar.
2. Equal interval: jarak antar angka sama.
3. Absolute zero: nol mutlak = ketiadaan atribut.
Jenis skala:
- Nominal: hanya kategori/nama (tidak ada urutan). Contoh: jenis kelamin, agama.
- Ordinal: urutan peringkat (ada magnitude). Contoh: ranking kelas, skala likert.
- Interval: urutan + jarak sama, tapi tanpa nol mutlak. Contoh: suhu (Celsius/Fahrenheit).
- Ratio: urutan + jarak sama + nol mutlak. Contoh: usia, tinggi, berat.

Untuk mengorganisasi banyak skor, digunakan descriptive statistics:
- Frequency distribution: menyusun skor acak menjadi urut.
- Measures of central tendency: mean (rata-rata), median (nilai tengah), mode (nilai yang sering muncul).
- Measures of variability: seberapa menyebar skor (range, variance, standar deviasi).
- Measures of relationship: hubungan antar variabel (misalnya korelasi Pearson).

Raw score: jumlah benar → tidak bermakna sebelum dibandingkan.
Skor bermakna jika dibandingkan dengan:
- Criterion-referenced scores: dibandingkan dengan standar tetap (misal cut-off lulus).
- Norm-referenced scores: dibandingkan dengan kelompok norma (norm group).

Dibandingkan dengan norm group (kelompok representatif yang dijadikan standar).
Syarat norm group: representatif, terkini (±10 tahun revisi), ukuran sampel memadai.
Jenis skor norm-referenced:
1. Percentile ranks (PR): posisi relatif dalam distribusi skor (0–99). Misal PR 85 = performa lebih baik dari 85% peserta lain.
2. Standard scores: transformasi raw score dengan distribusi normal. Contoh: z-score, T-score, IQ, stanine, sten.
3. Grade/Age equivalents: menunjukkan level kelas/usia rata-rata yang sesuai skor individu.

Time-sampling error: fluktuasi skor karena perbedaan waktu (contoh: mood berbeda). Bisa timbul carryover effect atau practice effect.
Content-sampling error: item tes tidak mewakili domain konstruksi dengan baik.
Interrater differences: perbedaan antar penilai bila tes bergantung pada subjektivitas.
Lain-lain: kualitas item, panjang tes, faktor peserta (motivasi, kesehatan), kondisi administrasi (noise, suhu, instruksi).

Definisi: sejauh mana interpretasi hasil tes tepat, bermakna, dan sesuai tujuan.
Validitas membuktikan bahwa tes benar-benar mengukur apa yang diklaim.
Reliabilitas adalah syarat perlu, tapi tidak cukup untuk validitas.

Construct underrepresentation: tes terlalu sempit → aspek penting tidak terukur.
Construct irrelevant variance: tes terlalu luas → ada variabel tidak relevan.
Faktor penyebab:
- Item tes: ambigu, tidak relevan, terlalu sedikit, pola jawaban mudah ditebak.
- Administrasi & scoring: instruksi salah, bantuan tidak adil, error scoring.
- Karakteristik peserta: test anxiety, kurang motivasi, gangguan emosi.
- Kelompok tes tidak sesuai dengan validation sample.

Content validity: kesesuaian isi tes dengan domain konstruk.
- Metode: table of specification, penilaian ahli.
Criterion-related validity: hubungan skor tes dengan variabel eksternal.
- Concurrent validity: dibandingkan dengan kriteria saat yang sama.
- Predictive validity: memprediksi performa di masa depan.
Construct validity: kesesuaian skor dengan konstruk teoritis.
- Convergent validity: korelasi tinggi dengan tes lain yang sejenis.
- Discriminant validity: korelasi rendah dengan tes yang berbeda konstruk.
Face validity: apakah tes tampak sesuai secara kasat mata bagi peserta/observer (lebih ke persepsi, bukan bukti teknis).