Psikologi.my.id - Saat dibangku kuliah, dosen seringkali memberi tugas kepada para mahasiswa-mahasiswinya. Entah itu disuruh buat makalah, artikel, esai (biasanya ini diawal semester), review jurnal dan lain sebagainya. Kali ini saya akan share tentang Teori Tes Klasik dan Modern yang saya buat sewaktu dapat tugas dari dosen (ini sudah saya pos di blog pertama saya poetrasoeloeng.blogspot.com). Langsung saja cekibrot :D
1. Teori Tes Klasik
Salah satu teori pengukuran yang tertua didunia pengukuran behavioral adalah Classical True-Score Theory. Di Indonesia, teori ini sering disebut dengan teori tes klasik. Teori tes klasik merupakan sebuah teori yang mudah dalam penerapannya serta model yang cukup berguna dalam mendeskripsikan bagaimana kesalahan dalam pengukuran dapat mempengaruhi skor amatan. Inti teori klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama. Dari asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan.
Ada tujuh macam asumsi yang ada dalam teori tes klasik ini. Allen & Yen menguraikan asumsi-asumsi teori klasik sebagai berikut:
- Asumsi pertama teori tes klasik adalah bahwa terdapat hubungan antara skor tampak (observed score) yang dilambangkan dengan huruf X, skor murni (true score) yang dilambangkan dengan T dan skor kasalahan (error) yang dilambangkan dengan E. Menurut Saifuddin Azwar (2001:30) yang dimaksud kesalahan pada pengukuran dalam teori klasik adalah penyimpangan tampak dari skor harapan teoritik yang terjadi secara random. Hubungan itu adalah bahwa besarnya skor tampak ditentukan oleh skor murni dan kesalahan pengukuran. Dalam bahasa matematika dapat dilambangkan dengan X = T + E.
- Asumsi kedua adalah bahwa skor murni (T) merupakan nilai harapan є (X). Dengan demikian skor murni adalah nilai rata-rata skor perolehan teoretis sekiranya dilakukan pengukuran berulang-ulang (sampai tak terhingga) terhadap seseorang dengan menggunakan alat ukur.
- Asumsi ketiga teori tes klasik menyatakan bahwa tidak terdapat korelasi antara skor murni dan skor pengukuran pada suatu tes yang dilaksanakan (ρet = 0). Implikasi dari asumsi adalah bahwa skor murni yang tinggi tidak akan mempunyai error yang selalu positif ataupun selalu negatif.
- Asumsi keempat meyatakan bahwa korelasi antara kesalahan pada pengukuran pertama dan nol (ρe1e2 = 0). Artinya bahwa skor-skor kesalahan pada dua tes untuk mengukur hal yang sama tidak memiliki korelasi (hubungan). Dengan kesalahan pada pengukuran kedua adalah nol (demikian besarnya kesalahan pada suatu tes tidak bergantung kesalahan pada tes lain.
- Asumsi kelima menyatakan bahwa jika terdapat dua tes untuk mengukur atribut yang sama maka skor kesalahan pada tes pertama tidak berkorelasi dengan skor murni pada tes kedua (ρelt2). Asumsi ini akan gugur jika salah satu tes tersebut ternyata mengukur aspek yang berpengaruh terhadap teradinya kesalahan pada pengukuran yang lain.
- Asumsi keenam teori tes klasik adalah menyajikan tentang pengertian tes yang pararel. Dua perangkat tes dapat dikatakan sebagai tes-tes yang pararel jika skor-skor populasi yang menempuh kedua tes tersebut mendapat skor murni yang sama (T = T' ) dan varian skor-skor kesalahannya sama (se 2=se'2). Dalam prakteknya, asumsi keenam teori ini sulit terpenuhi.
- Asumsi terakhir dari teori tes klasik menyatakan tentang definisi tes yang setara (essentially t equivalent). Jika dua perangkat tes mempunyai skor-skor perolehan dan Xt1 dan Xt2 yang memenuhi asumsi 1 sampai 5dan apabila untuk setiap populasi subyek X1 =X2 + C12, dimana C12 adalah bilangan konstanta, maka kedua tes disebut tes yang pararel.
Asumsi-asumsi teori klasik di atas memungkinkan untuk dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam melakukan pengukuran psikologis. Daya beda, indeks kesukaran, efektifitas distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes klasik.
A. Daya beda
Daya beda (diskriminasi) suatu butir tes adalah kemampuan suatu butir untuk membedakan antara peserta tes yang berkemampuan tinggi dan berkemampuan rendah. Adapun fungsi dari daya pembeda adalah mendeteksi perbedaan individual yang sekecil-kecilnya diantara para peserta tes. Penentuan daya beda butir biasanya dilakukan dengan menggunakan indeks korelasi, diskriminasi, dan indeks keselarasan item. Dari ketiga cara tersebut yang paling sering digunakan adalah indeks korelasi. Ada empat macam teknik korelasi yang biasa digunakan untuk menghitung daya beda, yaitu : (1) teknik point biserial, (2) teknik biserial, (3) teknik phi, dan (4) teknik tetrachorik. Brennan (1972) sebagaimana dikutip Yen W.M dalam Encyclopedia of Educational Research memperkenalkan cara untuk menghitung Indeks diskriminasi dengan menggunakan rumus sebagai berikut:
B = U _ L
n 1 n2
Dimana dari rumus di atas dapat dimaknai bahwa daya beda adalah perbedaan antara proporsi kelompok atas yang menjawab benar butir tes menjawab benar butir tes U
n 1
Dengan proporsi kelompok bawah yang menjawab butir tes L
n 2
Rumus tersebut dapat digunakan untuk menghitung daya beda butir-butir soal dalam bentuk pilihan ganda. Daya beda juga dapat dijelaskan sebagai derajad hubungan antara skor butir dengan skor total dengan menggunakan teknik korelasi product moment dari Pearson. Rumus khusus korelasi product moment yang dikenal dengan korelasi point biserial untuk data dalam bentuk dikotomi sebagaimana dikutip dalam Encyclopedia of Educational Research adalah sebagai berikut:
rpbis = (x+ -x) p
Sx q
Dimana x , mean total skor peserta yang memiliki jawaban benar. x adalah mean skormtotal S, adalah standar deviasi skor total, p adalah proporsi peserta ujian yang menjawab benar pada butir tes sedangkan q adalah 1 - p. Rumus korelasi point biserial juga dapat diturunkan langsung dari rumus korelasi produk momen tanpa membuat pembatasan asumsi.
Alternatif lain untuk melihat indeks daya beda adalah dengan menggunakan rumus korelasi biserial. Korelasi biserial berbeda dengan korelasi point biserial baik secara teori maupun perhitungan, akan tetapi jika digunakan untuk tujuan menganalisis butir, kedua teknik tersebut dapat di interpretasikan dengan cara yang sama. Crocker menyatakan rumus korelasi biserial sebagai berikut :
rbis = ( x+ - x ) P
Sx y
"y" pada rumus korelasi biserial di atas melambangkan ordinat p dalam kurva normal. x+ adalah mean skor dari peserta tes yang memiliki jawaban benar, x adalah mean skor total, Sx adalah deviasi standar total, p adalah proporsi peserta ujian yang menjawab benar butir ini dikarenakan tingkat kesukaran dikombinasikan dengan kriteria oleh koefisien point biserial.
Teknik lain untuk menentukan nilai daya beda adalah dengan menggunakan teknik korelasi phi (ø) f . Anas Sudijono menuliskan rumus tentang teknik korelasi phi sebagai berikut: ø = P H – P L
2√(p)(q)
ø adalah adalah angka indeks diskriminasi phi yang dianggap sebagai angka indeks diskriminasi butir. PH adalah proporsi orang yang menjawab benar kelompok atas. PL adalah proporsi orang yang menjawab benar kelompok bawah. p adalah proporsi seluruh peserta tes yang menjawab betul dan q adalah 1 dikurangi p.
Untuk menyatakan bahwa besaran daya beda dapat berfungsi dengan baik, ada beberapa patokan yang dapat digunakan. Menurut Djemari Mardapi, butir yang diterima harus memiliki indeks daya beda > 0,3 butir dengan indeks daya beda kurang dari antara 0,1 sampai 0,3 perlu direvisi dan jika daya bedanya < 0,1 maka butir tersebut tidak diterima. Sedangkan Ebel & Frisbie memberikan patokan indeks daya beda sebagai berikut:
B. Indeks Kesukaran
Indeks kesukaran butir sebagaimana dinyatakan oleh Allen & Yen adalah proportion of examinees who get that item correct. Senada dengan mereka, Sax menulis bahwa indeks kesukaran adalah proporsi peserta ujian yang menjawab benar. Saifuddin Azwar (2003: 134) menyatakan dengan lebih lugas bahwa indeks kesukaran butir adalah rasio penjawab butir dengan benar dan banyaknya penjawab butir.
Proporsi menjawab benar p (proportion correct) adalah indeks kesukaran soal yang paling sederhana dan sering digunakan dalam menentukan besaran indeks.
Rumus untuk menentukabesarnya indeks kesukaran secara matematis dirumuskan oleh Saifuddin sebagai berikut: P = n1
N
P adalah indeks kesukaran butir, n1 adalah jumlah peserta tes yang menjawab benar sedangkan N adalah banyaknya siswa yang menjawab butir soal tersebut. Dengan demikian untuk menghitung indeks kesukaran butir dilakukan dengan tidak membagi kelompok peserta tes kedalam kelompok atas dan bawah sebagaimana untuk menentukan daya beda.
Besarnya indeks korelasi berkisar antara 0 sampai 1. Makin tinggi besaran indeks korelasi maka butir soal tersebut semakin mudah. Dan semakin kecil angka indeks korelasi maka butir soal tersebut semakin sulit. Indeks kesukaran yang berada disekitar 0,5 dianggap yang terbaik. Karena itulah maka menurut Allen & Yen tingkat kesukaran yang baik adalah 0,3 sampai 0,7. Butir dengan tingkat kesulitan dibawah 0,3 dianggap butir soal yang sukar sedangkan jika indeksnya diatas 0,7 butir soal tersebut dianggap mudah.
Dari penjelasan di atas bisa disimpulkan berkaitan dengan indeks kesukaran butir yaitu bahwa nilai p bagi suatu butir hanya menunjukkan indeks bagi kelompok yang diuji. Harga p ini bisa berubah jika tes diujikan pada kelompok yang berbeda. Selain itu, indeks kesukaran yang dihasilkan dari rumus ini adalah indeks kesukaran yang berlaku bagi kelompok secara keseluruhan bukan perorangan. Indeks kesukaran bagi tiap peserta tes tidak bisa disimpulkan dengan melihat indeks proporsi menjawab benar p.
C. Efektivitas Distraktor
Setiap tes pilihan ganda memiliki satu pertanyaan serta beberapa pilihan jawaban. Diantara pilihan jawaban yang ada, hanya satu yang benar. Selain jawaban yang benar ada juga Jawaban yang salah atau distractor (pengecoh). Dengan demikian, efektifitas distraktor adalah seberapa baik pilihan yang salah tersebut dapat mengecoh peserta tes yang memang tidak mengetahui kunci jawaban yang tersedia. Semakin banyak peserta tes yang memilih distraktor tersebut, maka distaktor itu dapat menjalankan fungsinya dengan baik.
Cara menganalisis fungsi distraktor dapat dilakukan dengan menganalisis pola penyebaran jawaban butir. Pola penyebaran jawaban adalah suatu pola yang dapat menggambarkan bagaimana peserta tes dapat menentukan pilihan jawabannya terhadap kemungkinan-kemungkinan jawaban yang telah dipasangkan pada setiap butir.
Menurut Fernandes (1984: 29) distraktor dikatakan baik jika dipilih oleh minimal 2% dari seluruh peserta. Distraktor yang tidak memenuhi kriteria tersebut sebaiknya diganti dengan distraktor lain yang mungkin lebih menarik minat peserta tes untuk memilihnya.
Meskipun penggunaan teori tes klasik relatif mudah dalam menganalisis butir, tapi teori ini memiliki beberapa kelemahan mendasar. Kelemahan utama teori tes klasik adalah keterikatan alat ukur teori tersebut pada sampel (sample bound). Kemampuan kelompok siswa yang mengikuti tes sangat mempengaruhi nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan kepada kelompok yang lain.
Selain itu, perkiraan kemampuan peserta tergantung pada butir soal. Jika indeks kesukaran rendah maka estimasi kemampuan seseorang akan tinggi dan sebaliknya. Perkiraan kesalahan pengukuran tidak mencakup perorangan tetapi kelompok secara bersama-sama. Hal ini dikarenakan respon setiap peserta tes terhadap soal tidak bisa dijelaskan oleh teori tes klasik.
Dalam proses pembelajaran hal-hal tersebut akan menimbulkan berbagai macam kesukaran terutama untuk melihat kemampuan peserta tes secara perorangan. Oleh karena itulah ada upaya untuk membebaskan alat ukur dari keterikatan terhadap sampel (sample-free). Berangkat dari hal itulah para ahli kemudian menyusun teori baru yang bermaksud untuk melengkapi dan memperbaiki kelemahan-kelemahan yang ada dalam teori tes klasik. Teori ini kemudian dikenal dengan Item Response Theory (IRT) atau teori respon butir.
2. TEORI TES MODERN
Teori tes modern sering juga disebut Latent Trait Theory yaitu performance subjek dalam suatu tes yang dapat diprediksi dari kemampuannya yang bersifat laten. Atau lebih dikenal dengan Item Response Theory (IRT) yaitu respon subjek terhadap item yang menunjukkan kognitifnya. Kelebihan kinerja subjek dapat dilihat dengan Item Characteristic Curve (ICC). Artinya semakin baik performance subjek akan semakin banyak respon (jawaban pada aitem tes) yang benar.
Unsur teori dalam tes modern meliputi:
- Butir (item tes)
- Subjek (responnya)
- Isi respon subjek
Asumsi-asumsi dalam tes modern:
- Parameter butir soal dan kemampuan adalah (Invariant). Artinya soal yang dibuat memiliki korelasi positif dengan kemampuan yang diukur.
- Unidimensionality, artinya 1 item mengukur satu kemampuan. Asumsi ini kurang terbukti karena pada dasarnya antara item 1 dengan lainnya saling melengkapi.
- Local independence, artinya respon terhadap suatu item tidak akan berpengaruh terhadap item lainnya.
Parameter butir soal pada IRT:
Ukuran atau aturan-aturan yang digunakan untuk mengetahui mana soal yang valid (bisa dipakai) dan mana soal yang tidak valid (tidak bisa dipakai). Aturannya ada 3:
- Daya pembeda soal, Artinya item soal bisa dianggap baik kalau item soal tersebut dapat digunakan untuk membedakan antara subjek yang berkemampuan tinggi dari subjek yang berkemampuan rendah.
- Taraf kesukaran soal, Artinya item soal bisa dianggap baik kalau item soal tersebut tidak terlalu sulit dan tidak terlalu mudah.
- Kebetulan menjawab benar. Artinya item soal bisa mendeteksi subjek yang menjawab asal-asalan dan kebetulan benar.
Penggunaan parameter tersebut tergantung pada penyusun alat tes, boleh menggunakan ketiganya atau hanya menggunakan dua saja. Ada tiga pilihan yang bisa digunakan:
- Logistik 1 Parameter. Jika menggunakan logistik 1 parameter, item-item yang akan digunakan hanya diuji taraf kesukaran soalnya saja. Contoh saya membuat 50 item soal, setelah saya uji cobakan kepada N=100. Langkah selanjutnya saya hanya harus menyeleksi mana item-item yang memiliki taraf kesukaran sedang (item yang sedang ialah item yang bisa dijawab oleh 60% subjek). Langkah terakhir item-item yang diketahui taraf kesukarannya sedang langsung bisa digunakan untuk tes.
- Logistik 2 Parameter. Jika menggunakan logistik 2 parameter, item-item yang akan digunakan harus diuji taraf kesukaran soalnya dan juga daya beda soalnya. Jelasnya item-item yang tidak terlalu sulit dan tidak terlalu mudah serta bisa membedakan antara siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah, itu yang bisa dipakai sebagai item soal tes.
- Logistik 3 Parameter. Jika menggunakan logistik 3 parameter, item-item yang akan digunakan harus diuji taraf kesukaran soalnya, diuji daya beda soalnya, dan diuji kemungkinan kebetulan menjawab benar.
Demikian sekilas tentang teori tes klasik dan modern yang dapat saya share. Tulisan diatas dirangkum dari berbagai sumber. Ada yang saya ambil dari buku, modul mata kuliah dan juga beberapa artikel maupun jurnal secara online. Semoga bermanfaat.