MC

week 4 - statistical concepts

Introduction
  • Peran statistik dalam asesmen psikologis:

    • Membantu mengorganisasi, merangkum, dan menginterpretasi data.

    • Memungkinkan evaluator menilai sifat psikometri tes: reliabilitas, validitas, dan standardisasi.

  • Dua kelas utama metode statistik:

    1. Descriptive statistics → mendeskripsikan dan merangkum data dalam bentuk yang jelas dan mudah dipahami.

    2. Inferential statistics → membuat generalisasi/inferensi tentang populasi berdasarkan data dari sampel acak.

Variable
  • Definisi: sesuatu yang bisa memiliki lebih dari satu nilai.

  • Contoh dalam asesmen: achievement, intelligence, personality traits.

  • Variabel menjadi fokus utama dalam pengukuran psikologis.

Measurement
  • Measurement: proses memberi angka/simbol untuk mewakili objek, traits, atau perilaku sesuai aturan logis.

  • Contoh: skala 1–10 kepuasan pelanggan (1 = sangat tidak puas, 10 = sangat puas).

  • Penting karena tanpa pengukuran, variabel abstrak tidak bisa dibandingkan/diolah.

Scale of Measurement
  • 3 properti dasar:

    1. Magnitude: urutan dari kecil ke besar.

    2. Equal interval: jarak antar angka sama.

    3. Absolute zero: nol mutlak = ketiadaan atribut.

  • Jenis skala:

    • Nominal: hanya kategori/nama (tidak ada urutan). Contoh: jenis kelamin, agama.

    • Ordinal: urutan peringkat (ada magnitude). Contoh: ranking kelas, skala likert.

    • Interval: urutan + jarak sama, tapi tanpa nol mutlak. Contoh: suhu (Celsius/Fahrenheit).

    • Ratio: urutan + jarak sama + nol mutlak. Contoh: usia, tinggi, berat.

Describing Scores
  • Untuk mengorganisasi banyak skor, digunakan descriptive statistics:

    • Frequency distribution: menyusun skor acak menjadi urut.

    • Measures of central tendency: mean (rata-rata), median (nilai tengah), mode (nilai yang sering muncul).

    • Measures of variability: seberapa menyebar skor (range, variance, standar deviasi).

    • Measures of relationship: hubungan antar variabel (misalnya korelasi Pearson).

Assessment Scores
  • Raw score: jumlah benar → tidak bermakna sebelum dibandingkan.

  • Skor bermakna jika dibandingkan dengan:

    • Criterion-referenced scores: dibandingkan dengan standar tetap (misal cut-off lulus).

    • Norm-referenced scores: dibandingkan dengan kelompok norma (norm group).

Criterion-referenced Scores
  • Interpretasi dalam istilah absolut (persentase, kategori performa).

  • Umumnya ada cut-off score (contoh: minimal 70% untuk lulus).

Norm-referenced Scores
  • Dibandingkan dengan norm group (kelompok representatif yang dijadikan standar).

  • Syarat norm group: representatif, terkini (±10 tahun revisi), ukuran sampel memadai.

  • Jenis skor norm-referenced:

    1. Percentile ranks (PR): posisi relatif dalam distribusi skor (0–99). Misal PR 85 = performa lebih baik dari 85% peserta lain.

    2. Standard scores: transformasi raw score dengan distribusi normal. Contoh: z-score, T-score, IQ, stanine, sten.

    3. Grade/Age equivalents: menunjukkan level kelas/usia rata-rata yang sesuai skor individu.

Reliability
  • Definisi: konsistensi, stabilitas, dan dependabilitas skor tes.

  • Jika diukur ulang dengan kondisi sama, hasil harus relatif sama.

  • Rumus umum: Observed \ score = True \ score + Measurement \ error

  • Semakin besar error → reliabilitas semakin rendah.

Sumber Measurement Error
  1. Time-sampling error: fluktuasi skor karena perbedaan waktu (contoh: mood berbeda). Bisa timbul carryover effect atau practice effect.

  2. Content-sampling error: item tes tidak mewakili domain konstruksi dengan baik.

  3. Interrater differences: perbedaan antar penilai bila tes bergantung pada subjektivitas.

  4. Lain-lain: kualitas item, panjang tes, faktor peserta (motivasi, kesehatan), kondisi administrasi (noise, suhu, instruksi).

Validity
  • Definisi: sejauh mana interpretasi hasil tes tepat, bermakna, dan sesuai tujuan.

  • Validitas membuktikan bahwa tes benar-benar mengukur apa yang diklaim.

  • Reliabilitas adalah syarat perlu, tapi tidak cukup untuk validitas.

Ancaman terhadap Validitas
  • Construct underrepresentation: tes terlalu sempit → aspek penting tidak terukur.

  • Construct irrelevant variance: tes terlalu luas → ada variabel tidak relevan.

  • Faktor penyebab:

    • Item tes: ambigu, tidak relevan, terlalu sedikit, pola jawaban mudah ditebak.

    • Administrasi & scoring: instruksi salah, bantuan tidak adil, error scoring.

    • Karakteristik peserta: test anxiety, kurang motivasi, gangguan emosi.

    • Kelompok tes tidak sesuai dengan validation sample.

Sumber Bukti Validitas
  1. Content validity: kesesuaian isi tes dengan domain konstruk.

    • Metode: table of specification, penilaian ahli.

  2. Criterion-related validity: hubungan skor tes dengan variabel eksternal.

    • Concurrent validity: dibandingkan dengan kriteria saat yang sama.

    • Predictive validity: memprediksi performa di masa depan.

  3. Construct validity: kesesuaian skor dengan konstruk teoritis.

    • Convergent validity: korelasi tinggi dengan tes lain yang sejenis.

    • Discriminant validity: korelasi rendah dengan tes yang berbeda konstruk.

  4. Face validity: apakah tes tampak sesuai secara kasat mata bagi peserta/observer (lebih ke persepsi, bukan bukti teknis).

Hubungan Reliability dan Validity
  • Reliabilitas tinggi ≠ validitas terjamin.

  • Tes bisa konsisten tapi salah sasaran.

  • Jika reliabilitas rendah → validitas mustahil.