Bahan
ujian atau soal yang bermutu dapat membantu pendidik meningkatkan pembelajaran dan memberikan
informasi dengan tepat tentang peserta didik mana yang belum atau sudah
mencapai kompetensi. Salah satu ciri soal yang bermutu adalah bahwa soal itu
dapat membedakan setiap kemampuan peserta didik. Semakin tinggi kemampuan peserta
didik dalam memahami materi pembelajaran, semakin tinggi pula peluang menjawab
benar soal atau mencapai kompetensi yang ditetapkan. Makin rendah kemampuan peserta
didik dalam memahami materi pembelajaran, makin kecil pula peluang menjawab
benar soal untuk mengukur pencapaian kompetensi yang ditetapkan.
Syarat
soal yang bermutu adalah bahwa soal harus sahih (valid), dan handal. Sahih
maksudnya bahwa setiap alat ukur hanya mengukur satu dimensi/aspek saja. Mistar
hanya mengukur panjang, timbangan hanya mengukur berat, bahan ujian atau soal
PKn hanya mengukur materi pembelajaran PKn bukan mengukur
keterampilan/kemampuan materi yang lain. Handal maksudnya bahwa setiap alat
ukur harus dapat memberikan hasil pengukuran yang tepat, cermat, dan ajeg.
Untuk dapat menghasilkan soal yang sahih dan handal, penulis soal harus
merumuskan kisi-kisi dan menulis soal berdasarkan kaidah penulisan soal yang
baik (kaidah penulisan soal bentuk objektif/pilihan ganda, uraian, atau praktik).
Linn dan
Gronlund (1995: 47) menyatakan bahwa tes yang baik harus memenuhi tiga karakteristik,
yaitu: validitas, reliabilitas, dan usabilitas. Validitas artinya ketepatan interpretasi
hasil prosedur pengukuran, reliabilitas artinya konsistensi hasil pengukuran, dan
usabilitas artinya praktis prosedurnya. Di samping itu, Cohen dkk. (1992: 28)
juga menyatakan bahwa tes yang baik adalah tes yang valid artinya mengukur apa
yang hendak diukur. Nitko (1996 : 36) menyatakan bahwa validitas berhubungan
dengan interpretasi atau makna dan penggunaan hasil pengukuran peserta didik.
Messick (1993: 13) menjelaskan bahwa validitas tes merupakan suatu integrasi
pertimbangan evaluatif derajat keterangan empiris yang mendasarkan pemikiran
teoritis yang mendukung ketepatan dan kesimpulan berdasarkan pada skor tes.
Adapun validitas dalam model Rasch adalah sesuai atau fit dengan model
(Hambleton dan Swaminathan, 1985: 73).
Messick
(1993: 16) menyatakan bahwa validitas secara tradisional terdiri dari: (1)
validitas isi, yaitu ketepatan materi yang diukur dalam tes; (2) validitas
criterion-related, yaitu membandingkan tes dengan satu atau lebih variabel atau
kriteria, (3) valitidas prediktif, yaitu ketepatan hasil pengukuran dengan alat
lain yang dilakukan kemudian; (4) validitas serentak (concurrent), yaitu
ketepatan hasil pengukuran dengan dua alat ukur lainnya yang dilakukan secara
serentak; (5) validitas konstruk, yaitu ketepatan konstruksi teoretis yang mendasari
disusunnya tes. Linn dan Gronlund (1995 : 50) menyatakan hahwa valilitas
terdiri dari: (1) konten. (2) test-criterion relationship, (3) konstruk,
dan (4) consequences, yaitu ketepatan penggunaan hasil pengukuran.
Sedangkan menurut Oosterhof (190 : 23) yang mengutip berdasarkan "Standards
for Educational and Psychological Testing, 1985" yang didukung oleh Ebel
dan Frisbie (1991 : 102-109), serta Popham (1995 : 43) bahwa tipe validitas
adalah validitas: (1) content, (2) criterion, dan (3) construction.
Di samping
validitas, informasi tentang reliabilitas tes sangat diperlukan. Nitko (1999 : 62)
dan Popham (1995 : 21) menyatakan bahwa reliabilitas berhubungan dengan
konsistensi hasil pengukuran. Pernyataan ini didukung oleh Cohen dkk, yaitu
bahwa reliabilitas merupakan persamaan dependabilitas atau konsistensi (Cohen dkk
: 192 : 132) karena tes yang memiliki konsistensi/reliabilitas tinggi, maka
tesnya adalah akurat, reproducible; dan gereralizable terhadap
kesempatan testing dan instrumen tes yang sama. (Ebel dan Frisbie (1991 : 76). Faktor
yang mempengaruhi reliabilitas yang berhubungan dengan tes adalah: (1) banyak butir,
(2) homogenitas materi tes, (3) homogenitas karakteristik butir, dan (4)
variabilitas skor. Reliabilitas yang berhubungan dengan peserta didik
dipengaruhi oleh faktor: (1) heterogenitas kelompok, (2) pengalaman peserta
didik mengikuti tes, dan (3) motivasi peserta didik. Sedangkan faktor yang
mempengaruhi reliabilitas yang berhubungan dengan administrasi adalah batas waktu
dan kesempatan menyontek (Ebel dan Frisbie, 1991: 88-93).
Linn dan
Gronlund menyatakan bahwa metode estimasi dapat dilakukan dengan mempergunakan:
(1) metode test-retest, yaitu diberikan tes yang sama dua kali pada
kelompok yang sama dengan interval waktu; tujuannya adalah pengukuran
stabilitas; (2) metode equivalent form, yaitu diberikan dua tes paralel
pada kelompok yang sama dan waktu yang sama; tujuannya adalah pengukuran menjadi
ekuivalen; (3) metode test-retest dengan equivalen form, yaitu
diberikan dua tes paralel pada kelompok yang sama dengan interval waktu;
tujuannya adalah pengukuran stabilitas dan ekuivalensi; (4) metode split-half,
yaitu diberikan tes sekali, kemudian skor pada butir yang ganjil dan genap
dkorelasikan dengan menggunakan rumus Spearman-Brown; tujuannya adalah
pengukuran konsistensi internal; (5) metode Kuder-Richardson dan koefisien
Alfa, yaitu diberikan tes sekali kemudian skor total tes dihitung dengan
rumus Kuder-Richardson, tujuannya adalah pengukuran konsistensi internal; (6) metode
inter-rater, yaitu diberikan satu set jawaban peserta didik untuk
diskor/judgement oleh 2 atau lebih rater; tujuannya adalah pengukuran konsistensi
rating. Menurut Popham (1995: 22), reliabilitas terdiri dari 3 jenis yaitu: (1)
stabilitas, yaitu konsistensi hasil di antara kesempatan testing yang berbeda,
(2) format bergantian (alternate form), yaitu konsistensi hasil di
antara dua atau lebih tes yang berbeda, (3) internal konsistensi, yaitu
konsistensi melalui suatu pengukuran fungsi butir instrumen.
Reliabilitas
skor tes dalam teori respon butir adalah penggunaan fungsi informasi tes.
Menurut Hambleton dan Swaminathan (1985: 236), pengukuran fungsi informasi tes
lebih akurat bila dibandingkan dengan penggunaan reliabilitas karena: (1) bentuknya
tergantung hanya pada butir-butir dalam tes, (2) mempunyai estimasi kesalahan
pengukuran pada setiap level abilitas. Pernyataan ini didukung oleh Gustafson (1981
: 41), yaitu bahwa konsep reliabilitas dalam model Rasch memerankan bagian
subordinate sebab model pengukuran ini diorientasikan pada estimasi kemampuan
individu.
Untuk
meningkatkan validitas dan reliabilitas tes perlu dilakukan analisis butir soal.
Kegunaan analisis butir soal di antaranya adalah: (1) dapat membantu para
pengguna tes dalam evaluasi atas tes yang diterbitkan, (2) sangat relevan bagi
penyusunan tes informal dan lokal seperti kuis, ulangan yang disiapkan guru
untuk peserta didik di kelas, (3) mendukung penulisan butir soal yang efektif,
(4) secara materi dapat memperbaiki tes di kelas, (5) meningkatkan validitas
soal dan reliabilitas (Anastasi dan Urbina, 1997: 172).
Sumber : Panduan Penulisan Butir Soal
No comments:
Post a Comment
Jika ada yang ingin disampaikan tentang isi blog ini, mohon kiranya berkenan untuk memberikan komentar di sini