Penilaian Pendidikan : Soal Yang Bermutu

Bahan ujian atau soal yang bermutu dapat membantu pendidik meningkatkan pembelajaran dan memberikan informasi dengan tepat tentang peserta didik mana yang belum atau sudah mencapai kompetensi. Salah satu ciri soal yang bermutu adalah bahwa soal itu dapat membedakan setiap kemampuan peserta didik. Semakin tinggi kemampuan peserta didik dalam memahami materi pembelajaran, semakin tinggi pula peluang menjawab benar soal atau mencapai kompetensi yang ditetapkan. Makin rendah kemampuan peserta didik dalam memahami materi pembelajaran, makin kecil pula peluang menjawab benar soal untuk mengukur pencapaian kompetensi yang ditetapkan.

Syarat soal yang bermutu adalah bahwa soal harus sahih (valid), dan handal. Sahih maksudnya bahwa setiap alat ukur hanya mengukur satu dimensi/aspek saja. Mistar hanya mengukur panjang, timbangan hanya mengukur berat, bahan ujian atau soal PKn hanya mengukur materi pembelajaran PKn bukan mengukur keterampilan/kemampuan materi yang lain. Handal maksudnya bahwa setiap alat ukur harus dapat memberikan hasil pengukuran yang tepat, cermat, dan ajeg. Untuk dapat menghasilkan soal yang sahih dan handal, penulis soal harus merumuskan kisi-kisi dan menulis soal berdasarkan kaidah penulisan soal yang baik (kaidah penulisan soal bentuk objektif/pilihan ganda, uraian, atau praktik).

Linn dan Gronlund (1995: 47) menyatakan bahwa tes yang baik harus memenuhi tiga karakteristik, yaitu: validitas, reliabilitas, dan usabilitas. Validitas artinya ketepatan interpretasi hasil prosedur pengukuran, reliabilitas artinya konsistensi hasil pengukuran, dan usabilitas artinya praktis prosedurnya. Di samping itu, Cohen dkk. (1992: 28) juga menyatakan bahwa tes yang baik adalah tes yang valid artinya mengukur apa yang hendak diukur. Nitko (1996 : 36) menyatakan bahwa validitas berhubungan dengan interpretasi atau makna dan penggunaan hasil pengukuran peserta didik. Messick (1993: 13) menjelaskan bahwa validitas tes merupakan suatu integrasi pertimbangan evaluatif derajat keterangan empiris yang mendasarkan pemikiran teoritis yang mendukung ketepatan dan kesimpulan berdasarkan pada skor tes. Adapun validitas dalam model Rasch adalah sesuai atau fit dengan model (Hambleton dan Swaminathan, 1985: 73).

Messick (1993: 16) menyatakan bahwa validitas secara tradisional terdiri dari: (1) validitas isi, yaitu ketepatan materi yang diukur dalam tes; (2) validitas criterion-related, yaitu membandingkan tes dengan satu atau lebih variabel atau kriteria, (3) valitidas prediktif, yaitu ketepatan hasil pengukuran dengan alat lain yang dilakukan kemudian; (4) validitas serentak (concurrent), yaitu ketepatan hasil pengukuran dengan dua alat ukur lainnya yang dilakukan secara serentak; (5) validitas konstruk, yaitu ketepatan konstruksi teoretis yang mendasari disusunnya tes. Linn dan Gronlund (1995 : 50) menyatakan hahwa valilitas terdiri dari: (1) konten. (2) test-criterion relationship, (3) konstruk, dan (4) consequences, yaitu ketepatan penggunaan hasil pengukuran. Sedangkan menurut Oosterhof (190 : 23) yang mengutip berdasarkan "Standards for Educational and Psychological Testing, 1985" yang didukung oleh Ebel dan Frisbie (1991 : 102-109), serta Popham (1995 : 43) bahwa tipe validitas adalah validitas: (1) content, (2) criterion, dan (3) construction.

Di samping validitas, informasi tentang reliabilitas tes sangat diperlukan. Nitko (1999 : 62) dan Popham (1995 : 21) menyatakan bahwa reliabilitas berhubungan dengan konsistensi hasil pengukuran. Pernyataan ini didukung oleh Cohen dkk, yaitu bahwa reliabilitas merupakan persamaan dependabilitas atau konsistensi (Cohen dkk : 192 : 132) karena tes yang memiliki konsistensi/reliabilitas tinggi, maka tesnya adalah akurat, reproducible; dan gereralizable terhadap kesempatan testing dan instrumen tes yang sama. (Ebel dan Frisbie (1991 : 76). Faktor yang mempengaruhi reliabilitas yang berhubungan dengan tes adalah: (1) banyak butir, (2) homogenitas materi tes, (3) homogenitas karakteristik butir, dan (4) variabilitas skor. Reliabilitas yang berhubungan dengan peserta didik dipengaruhi oleh faktor: (1) heterogenitas kelompok, (2) pengalaman peserta didik mengikuti tes, dan (3) motivasi peserta didik. Sedangkan faktor yang mempengaruhi reliabilitas yang berhubungan dengan administrasi adalah batas waktu dan kesempatan menyontek (Ebel dan Frisbie, 1991: 88-93).

Linn dan Gronlund menyatakan bahwa metode estimasi dapat dilakukan dengan mempergunakan: (1) metode test-retest, yaitu diberikan tes yang sama dua kali pada kelompok yang sama dengan interval waktu; tujuannya adalah pengukuran stabilitas; (2) metode equivalent form, yaitu diberikan dua tes paralel pada kelompok yang sama dan waktu yang sama; tujuannya adalah pengukuran menjadi ekuivalen; (3) metode test-retest dengan equivalen form, yaitu diberikan dua tes paralel pada kelompok yang sama dengan interval waktu; tujuannya adalah pengukuran stabilitas dan ekuivalensi; (4) metode split-half, yaitu diberikan tes sekali, kemudian skor pada butir yang ganjil dan genap dkorelasikan dengan menggunakan rumus Spearman-Brown; tujuannya adalah pengukuran konsistensi internal; (5) metode Kuder-Richardson dan koefisien Alfa, yaitu diberikan tes sekali kemudian skor total tes dihitung dengan rumus Kuder-Richardson, tujuannya adalah pengukuran konsistensi internal; (6) metode inter-rater, yaitu diberikan satu set jawaban peserta didik untuk diskor/judgement oleh 2 atau lebih rater; tujuannya adalah pengukuran konsistensi rating. Menurut Popham (1995: 22), reliabilitas terdiri dari 3 jenis yaitu: (1) stabilitas, yaitu konsistensi hasil di antara kesempatan testing yang berbeda, (2) format bergantian (alternate form), yaitu konsistensi hasil di antara dua atau lebih tes yang berbeda, (3) internal konsistensi, yaitu konsistensi melalui suatu pengukuran fungsi butir instrumen.

Reliabilitas skor tes dalam teori respon butir adalah penggunaan fungsi informasi tes. Menurut Hambleton dan Swaminathan (1985: 236), pengukuran fungsi informasi tes lebih akurat bila dibandingkan dengan penggunaan reliabilitas karena: (1) bentuknya tergantung hanya pada butir-butir dalam tes, (2) mempunyai estimasi kesalahan pengukuran pada setiap level abilitas. Pernyataan ini didukung oleh Gustafson (1981 : 41), yaitu bahwa konsep reliabilitas dalam model Rasch memerankan bagian subordinate sebab model pengukuran ini diorientasikan pada estimasi kemampuan individu.

Untuk meningkatkan validitas dan reliabilitas tes perlu dilakukan analisis butir soal. Kegunaan analisis butir soal di antaranya adalah: (1) dapat membantu para pengguna tes dalam evaluasi atas tes yang diterbitkan, (2) sangat relevan bagi penyusunan tes informal dan lokal seperti kuis, ulangan yang disiapkan guru untuk peserta didik di kelas, (3) mendukung penulisan butir soal yang efektif, (4) secara materi dapat memperbaiki tes di kelas, (5) meningkatkan validitas soal dan reliabilitas (Anastasi dan Urbina, 1997: 172).

Sumber : Panduan Penulisan Butir Soal