PENDAHULUAN
Dalam bab sebelumnya model teoritis disajikan untuk
mengkarakterisasi pengaruh kesalahan acak pa
da nilai tes. Menurut model klasik skor murni, koefisien reliabilitas didefinisikan sebagai korelasi antar tes paralel. Koefisien reliabilitas yang ditunjukkan juga harus setara dengan proporsi varian skor yang diamati disebabkan oleh varian pada nilai ujian yang benar. Dalam prakteknya, bagaimanapun juga, pengembang tes tidak dapat dijamin untuk menciptakan pengukuran paralel yang sempurna, atau nilai murni pada ujian bisa diperoleh. Lalu bagaimana bisa koefisien reliabilitas untuk satu set pengukuran ditentukan? Jawabannya adalah bahwa koefisien reliabilitas untuk satu set nilai tidak pernah dapat ditentukan secara pasti, tetapi bisa diperkirakan
bagi sampel
tertentu pada item tes. Perhatikan bahwa estimasi tidak mengacu pada melihat
data dan membuat penafsiran tentang reliabilitas melainkan untuk komputasi
nilai numerik dari sampel pengamatan, yang merupakan estimasi kuantitas
teoritis dalam penyelidikan. Penggunaan simbol "^" di atas adalah
statistik untuk rata-rata, varians, dan korelasi dalam bab ini menandakan bahwa
jumlah ini dihitung untuk sampel bukan populasi. da nilai tes. Menurut model klasik skor murni, koefisien reliabilitas didefinisikan sebagai korelasi antar tes paralel. Koefisien reliabilitas yang ditunjukkan juga harus setara dengan proporsi varian skor yang diamati disebabkan oleh varian pada nilai ujian yang benar. Dalam prakteknya, bagaimanapun juga, pengembang tes tidak dapat dijamin untuk menciptakan pengukuran paralel yang sempurna, atau nilai murni pada ujian bisa diperoleh. Lalu bagaimana bisa koefisien reliabilitas untuk satu set pengukuran ditentukan? Jawabannya adalah bahwa koefisien reliabilitas untuk satu set nilai tidak pernah dapat ditentukan secara pasti, tetapi bisa diperkirakan
Tujuan bab ini adalah untuk menggambarkan prosedur umum yang digunakan
untuk mengestimasi uji reliabilitas skor. Data yang akan digunakan dalam
mengestimasi koefisien reliabilitas dapat dikumpulkan oleh berbagai prosedur,
dan setidaknya ada dua prosedur tentang bagaimana kita memilih satu metode yang
paling tepat. Satu pandangan bahwa prosedur yang optimal menghasilkan estimasi
korelasi yang akan diperoleh jika nilai bentuk tes paralel yang tersedia.
Dengan demikian studi reliabilitas ini dirancang untuk meminimalkan efek dari
pengukuran non-paralel dengan menggunakan ukuran yang hampir paralel. Sebuah
titik pandang kedua (yang merupakan dasar untuk bab ini dan bab berikutnya pada
teori generalisasi) adalah bahwa prosedur yang paling tepat ditentukan oleh
tujuan penggunaan skor tes. Pengembang tes harus mengidentifikasi sumber-sumber
kesalahan pengukuran yang paling akan merugikan interpretasi kegunaan skor dan
desain studi reliabilitas yang memungkinkan kesalahan tersebut terjadi sehingga
efek mereka dapat dinilai.
BAB II
PEMBAHASAN
PROSEDUR MENGESTIMASI RELIABILITAS
1.
Prosedur
Administrasi yang Membutuhkan Dua Tes
a.
Metode Bentuk
Alternatif (Alternate Form)
Anggaplah
bahwa semua calon yang masuk ke pekerjaan kesehatan tertentu harus mengikuti
ujian negara, yang dikelola dalam kondisi yang terkendali di sebuah situs
particiear pada tanggal tertentu. Untuk mengurangi kemungkinan kecurangan,
ujian di kursi yang berdekatan mengambil bentuk yang berbeda dari tes yang
mencakup konten yang sama. Jelas ujian masing-masing memiliki hak untuk
mengharapkan bahwa nilainya tidak akan sangat dipengaruhi oleh bentuk khusus
dari tes yang diambil. Dalam hal ini, kesalahan pengukuran yang pengguna tes
terutama perhatian adalah yang disebabkan oleh perbedaan dalam isi bentuk tes.
Tentu saja kesalahan, administrasi dan penilaian, menebak, dan fluktuasi dalam
kinerja peserta ujian sementara juga dapat berkontribusi dalam inkonsistensi
nilai. Untuk mengatasi masalah ini, pengembang tes harus memperkirakan koefisien
reliabilitas tes kemampuan dengan menggunakan metode bentuk lainnya (alternatif form).
Metode
bentuk alternatif membutuhkan membangun dua bentuk serupa tes dan administrasi
baik formulir untuk kelompok ujian yang sama. Bentuk harus diberikan dalam
jangka waktu yang sangat singkat, sehingga waktu hanya cukup antara pencobaan
sehingga peserta ujian tidak akan lelah. Hal ini dianggap diinginkan untuk
menyeimbangkan urutan administrasi bentuk sehingga setengah peserta ujian
secara acak ditugaskan untuk membentuk 1 diikuti oleh bentuk 2, sedangkan
separuh lainnya mengambil formulir 2 diikuti oleh bentuk 1. Koefisien korelasi
antara dua set nilai ini kemudian dihitung, biasanya dengan rumus product moment Pearson. Koefisien
korelasi ini disebut koefisien kesetaraan. Semakin tinggi koefisien equivalen
bahwa kekerasan, pengguna tes lebih percaya diri dapat bahwa nilai dari
bentuk-bentuk tes yang berbeda dapat digunakan secara bergantian.
Setiap
tes yang memiliki berbagai bentuk harus memiliki beberapa bukti kesetaraan
mereka. Biasanya, tes prestasi dan bakat yang dibangun dengan berbagai bentuk
sejak beberapa penggunaan klinis, pendidikan, atau penelitian memerlukan ujian
untuk memiliki kesempatan untuk merebut kembali pemeriksaan, dan pengguna tes
tidak ingin menggunakan item yang sama untuk tes kedua. Meskipun tidak ada,
sulit aturan cepat untuk apa yang merupakan nilai minimal yang dapat diterima
untuk estimasi reliabilitas bentuk alternatif, banyak prestasi manual standar
laporan uji koefisien berkisar di 0,80 dan 0,90 untuk jenis reliabilitas. Selain
itu, nilai-nilai berarti, deviasi standar, dan kesalahan standar pengukuran
harus dilaporkan untuk setiap form, dan ini harus cukup mirip jika koefisien
kesetaraan ditafsirkan sebagai estimasi reliabilitas.
b. Metode
Tes-Ulang (Test-Retest)
Ada banyak
situasi pengujian yang satu bentuk dari tes ini adalah cukup tetapi pengguna
uji tertarik pada bagaimana secara konsistensi peserta ujian merespon bentuk
ini pada waktu yang berbeda. Dalam situasi ini kesalahan pengukuran perhatian
utama adalah fluktuasi skor mengamati ujian di sekitar skor murni karena
perubahan sementara di bagian ujian itu. Sekali lagi, namun. kesalahan karena
administrasi, penilaian, menebak, kesalahan menjawab oleh peserta ujian, dan
fluktuasi sementara lainnya dalam perilaku mungkin memiliki dampak pada skor diamati.
Untuk memperkirakan dampak dari kesalahan tersebut pada reliabilitas skor tes,
tes konstruktor mengelola tes untuk kelompok ujian, menunggu, pembacaan tes
yang sama untuk kelompok yang sama, dan kemudian menghitung koefisien korelasi
antara dua set nilai. Koefisien korelasi diperoleh dari prosedur tes ulang
disebut koefisien stabilitas.
Penafsiran
koefisien stabilitas sebagai estimasi reliabilitas menimbulkan beberapa
pertanyaan menarik. Ketika koefisien rendah diperoleh, apakah ini menunjukkan
bahwa tes tidak dapat diandalkan memberikan langkah-langkah sifat tersebut,
atau apakah itu berarti bahwa sifat itu sendiri tidak stabil? Jika pengguna tes
percaya bahwa jumlah sifat yang dimiliki peserta ujian harus berubah dari waktu
ke waktu, asumsi dasar dari model klasik skor murni telah dilanggar dan
koefisien korelasi yang diperoleh bukanlah estimasi yang tepat pada
reliabilitas skor tes. Isu kedua adalah apakah perilaku suatu ujian adalah
diubah oleh administrasi tes pertama sehingga skor tes kedua akan mencerminkan
efek memori, praktek, belajar, kebosanan, sensitisasi, atau konsekuensi lain
dari pengukuran pertama. Mengingat isu-isu itu mungkin masuk akal untuk
mengasumsikan bahwa koefisien uji-tes ulang merupakan estimasi yang agak tidak
akurat dari koefisien reliabilitas teoritis. Namun demikian, informasi tentang
stabilitas skor tes sangat penting untuk menguji pengguna tes di banyak situasi
pengujian praktis.
c. Tes
Ulang dengan Bentuk Alternatif (Test-Retest
dengan Alternate Form)
Koefisien
reliabilitas juga dapat diperkirakan dengan menggunakan kombinasi dari tes-tes
ulang bentuk dan metode alternatif. Dalam hal ini, prosedur ini untuk mengatur
bentuk 1 tes, tunggu, dan kemudian mengatur bentuk 2. Jika memungkinkan,
diharapkan bahwa urutan administrasi bentuk dibalik untuk setengah kelompok.
Koefisien korelasi antara dua set skor dikenal sebagai koefisien stabilitas dan
kesetaraan. Koefisien ini dipengaruhi oleh kesalahan pengukuran karena sampling
konten dalam bentuk pembangunan serta perubahan dalam pertunjukan individu
'dari waktu ke waktu dan hampir semua jenis lain dari kesalahan yang telah
dijelaskan sebelumnya. Estimasi reliabilitas tersebut biasanya lebih rendah
daripada koefisien kesetaraan atau koefisien stabilitas yang ditentukan untuk
tes yang sama pada kelompok ujian yang sama.
2.
Membutuhkan Metode Administrasi Tes
Tunggal
Ada
situasi menguji banyak ketika bentuk tes tunggal akan diberikan hanya sekali
untuk sekelompok ujian. Contoh yang paling umum adalah guru membuat tes kelas.
Instruktur biasanya membuat sampai hanya satu bentuk dan mengelola untuk semua
siswa. Selain itu, instruktur tidak akan selalu mengharapkan kinerja siswa
harus konsisten pada tes ini dari waktu ke waktu karena siswa akan terus
belajar (atau lupa) materi pada tingkat yang berbeda. Namun masih cukup tepat
untuk tertarik pada sejauh mana varians skor diamati untuk ujian mencerminkan skor
murni mereka varians pada tes ini pada saat ini. Seperti dalam situasi
pengujian yang paling pemeriksa tidak terutama berkaitan dengan bagaimana
peserta ujian skor pada item ini, biasanya pemeriksa ingin generalisasi dari item-item
khusus untuk domain konten yang lebih besar dari item yang mungkin telah
diminta. Salah satu cara untuk memperkirakan seberapa konsisten kinerja ujian pada
tes ini dapat digeneralisasi ke domain item yang mungkin telah diminta adalah
untuk menentukan bagaimana peserta ujian dilakukan secara konsisten di seluruh
item atau himpunan bagian dari item pada bentuk tes tunggal. Prosedur yang
dirancang untuk memperkirakan reliabilitas dalam keadaan ini disebut metode
konsistensi internal. Semua prosedur estimasi konsistensi internal yang
diperkenalkan dalam bab ini nilai-nilai hasil yang fungsi korelasi antara
terpisah mencetak bagian-bagian dari tes. Bahkan, beberapa menghasilkan
nilai-nilai prosedur yang fungsi korelasi antara terpisah mencetak belahan tes.
Hal ini wajar untuk memikirkan korelasi antara himpunan bagian dari item
seperti menyediakan beberapa informasi tentang sejauh mana mereka dibangun
sesuai dengan spesifikasi yang sama. Jika kinerja ujian yang konsisten di
seluruh himpunan bagian dari item dalam ujian, pemeriksa dapat memiliki
keyakinan bahwa kinerja ini akan generalisasi ke item lain yang mungkin dalam
domain isi. Dalam melakukan studi konsistensi internal, kita terutama khawatir
tentang kesalahan yang disebabkan oleh sampling konten, meskipun kesalahan
pengukuran karena kesalahan administrasi dan mencetak, menebak, dan fluktuasi
sementara kinerja individu dalam sesi pengujian juga dapat mempengaruhi
koefisien konsistensi internal.
Ketika
melakukan ujian secara konsisten di seluruh item dalam tes, tes dikatakan
memiliki homogenitas item. Dalam rangka untuk sekelompok item yang akan
homogen, mereka harus mengukur kinerja jenis yang sama (atau mewakili konten
domain yang sama). Item juga harus ditulis dengan baik dan bebas dari
kekurangan teknis yang dapat menyebabkan peserta ujian untuk merespon pada
beberapa dasar yang tidak terkait dengan konten. Ketika item pada tes tunggal
yang diambil dari daerah yang beragam (misalnya, matematika, sejarah, dan
sastra), ujian mungkin tidak akan melakukan secara konsisten di seluruh item-item
dan koefisien konsistensi internal akan berkurang. Demikian pula, jika item
tersebut datang dari daerah tunggal, misalnya, sejarah, tetapi beberapa item
tes konsep utama dan yang lain berdasarkan poin kecil hanya disebutkan dalam
catatan kaki dari teks, itu lagi kemungkinan bahwa konsistensi internal dari
kinerja akan menjadi rendah. Akhirnya, bahkan jika semua item perwakilan yang
adil dari domain konten, tapi ada pula yang. buruk ditulis sehingga ujian
mungkin salah menafsirkan pertanyaan atau jawaban berdasarkan derajat mereka
"wiseness tes" daripada pengetahuan mereka, ini lagi akan menurunkan
konsistensi internal. Oleh karena itu, selalu tepat untuk menyelidiki
konsistensi internal tes sejak koefisien konsistensi internal merupakan indeks
dari kedua homogenitas item dan kualitas konten item.
Pada
bagian berikut ini ada dua metode dalam mengestimasi koefisien reliabilitas
untuk administrasi tes tunggal yang akan disajikan. Yang pertama, umumnya disebut sebagai metode “split-half”. Yang kedua, metode membutuhkan sebuah
analisis struktur varian-kovarians dari jawaban item. Semua metode menghasilkan
sebuah indeks dari konsistensi internal dari jawaban peserta ujian ke item
dalam bentuk tes tunggal.
a. Metode Split-Half (Formula Spearman Brown untuk belah
dua)
Dengan
menggunakan metode split-half, pengembang
tes mengelola satu bentuk tes untuk kelompok ujian. Pengembang tes
membagi item menjadi dua subyek, masing-masing setengah dari panjang tes
asli. Jadi, jika tes 20
item yang
diberikan, itu akan dibagi menjadi dua yaitu setiap tes 10 item masing-masing. Tujuannya
adalah untuk menciptakan dua setengah-tes yang adalah sebagai hampir paralel
mungkin. Empat metode populer untuk membagi tes menjadi dua bagian adalah untuk:
a) Menetapkan
semua item yang bernomor ganjil untuk membentuk 1 dan semua item genap untuk
membentuk 2
b) Peringkat
urutan item dalam hal tingkat kesulitannya (p-nilai) berdasarkan respon dari
peserta ujian; kemudian menetapkan item dengan ganjil peringkat untuk membentuk
1 dan mereka
dengan peringkat genap untuk membentuk 2
c) Menetapkan
secara acak item ke dua setengah bentuk tes
d) Menempatkan
item untuk setengah-tes bentuk sehingga bentuk-bentuk yang "sesuai"
dalam konten.
Formula
Spearman Brown untuk belah dua merupakan sebuah formula komputasi yang sangat
populer untuk estimasi reliabilitas tes yang dibelah menjadi dua bagian yang
relatif paralel satu dengan yang lain. Formula ini dapat digunakan pada tes
yang item-itemnya diberi skor dikotomi maupun non-dikotomi. Umumnya untuk
memperoleh dua belahn tes yang relative paralel satu sama lain dalam penggunaan
formula Spearman Brown, dilakukan cara pembelahan gasal-genap atau cara matched
random subsets dikarenakan dari dua cara itulah diharapkan akan diperoleh
belhan-belhan yang paralel seperti yang dikehndaki.
b. Formula Rulon
Rulon
(1939) merumuskan suatu formula untuk mengestimasi reliabilitas belah-dua tanpa
perlu berasumsi bahwa kedua belahan mempunyai varians yang sama. Menurut Rulon,
perbedaan subjek pada kedua belahan tes akan membentuk distribusi perbedaan
skor dengan varians yang besarnya ditentukan oleh varians eror masing-masing
belahan. Karena varians eror keseluruhan tes, maka varians eror tes ini dapat
diestimasi lewat besarnya varians perbedaan skor diantara kedua belahan. Dengan
demikian, dalam melakukan estimasi terhadap reliabilitas tes, varians perbedaan
skor inilah yang perlu diperhitungkan sebagai sumber eror.
c. Koefisien Alpha (α)
Telah
dijelaskan dimuka bahwa formula Spearman Brown hanya akan menghasilkan estimasi
reliabilitas yang cermat apabila belahan-belahan tes yang diperoleh dapat
memenuhi asumsi paralel. Apabila kita tidak yakin bahwa asumsi tersebut tidak
terpenuhi, maka koefisien-α (Cronbach, 1951)
dapat digunakan. Walaupun dapat
digunakan pada tes yang belahannya tidak paralel satu sama lain, akan tetapi
apabila kedua belahan tersebut tidak memenuhi asumsi -equivalent,
maka koefisien reliabilitas alpha yang diperoleh akan merupakan underestimasi
terhadap reliabilitas yang sesungguhnya (artinya, reliabilitas yang sebenarnya
mungkin sekali lebih tinggi daripada koefisien yang diperoleh dari hasil
perhitungan). Oleh karena itu, bila kita memperoleh hasil perhitungan yang
cukup tinggi kita akan tahu bahwa ada kemungkinan reliabilitas yang
sesungguhnya lebih tinggi lagi akan tetapi bila koefisien yang diperoleh
ternyata rendah, maka kita belum dapat memastikan apakah tes yang bersangkutan
memang memiliki reliabilitas rendah ataukah hal tersebut sekedar indikasi tidak
terpenuhinya asumsi -equivalent
(Allen & Yen, 1979).
d. Formula Kuder-Richardson
Bila
suatu tes berisi item-item yang diberi skor dikotomi sedangkan jumlah itemnya
sendiri tidak begitu banyak, kadang-kadang membagi tes menjadi dua bagian tidak
dapat menghasilkan bagian yang setara sedangkan membagi tes menjadi lebih dari
dua belahan akan mengakibatkan jumlah item dalam setiap belahan terlalu sedkit.
Bila dalam belahan hanya berisi sedikit item, komputasi reliabilitasnya tidak
dapat menghasilkan estimasi yang cermat. Salah satu cara yang dapat dilakukan
adalah membelah tes tersebut menjadi sebanyak jumlah itemnya sehingga setiap
belahan berisi hanya satu item saja. Kemudian estimasi reliabilitasnya
dilakukan melalui formula alpha yang disesuaikan, yang dikenal dengan nama
formula Kuder Richardson-20 atau KR-20 (Kuder-Richardson, 1937) dan dikenal
pula dengan nama koefisien α-20 (Cronbach,
1951). Koefisien KR-20 atau koefisien α-20
merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang
mungkin dilakukan. Koefisien ini juga mencerminkan sejauhmana kesetraan isi
item-item dalam tes.
e.
Estimasi
reliabilitas dengan analisis varians
Selain melalui
pendekatan-pendekatan korelasional, estimasi reliabilitas tes dalam prosedur
single-trial administration dapat pula dilakukan melalui teknik analisis
varians (anava). Hal ini sangat logis bila diingat bahwa konsepsi reliabilitas
sendiri memang merupakan rasio dari berbagai varians distribusi. Salah satu
teknik anava yang sangat populer adalah yang dikemukakan oleh Hoyt (1941).
Pendekatan Hoyt ini termuat dalam jurnal Psychometrika yang sangat bergengsi
dan sejak itu mendapat perhatian yang besra sekali dari para ahli psikometri.
Konsep dalam
teknik analisis varians Hoyt adalah memandang distribusi item keseluruhan
subjek sebagai data pada suatu desain eksperimen factorial dua-jalan tanpa
replikasi, yang dikenal pula sebagai item by subject design. Setiap item
dianggap seakan suatu treatment atau perlakuan yang berbeda sehingga setiap
kali subjek dihadapkan pada suati item seakan-akan ia berada oada suatu
perlakuan yang berbeda. Dalam hal ini banyaknya item merupakan banyaknya
perlakuan. Dari pola faktorial ini diperoleh harga mean kuadrat antarsubjek
yang sbenarnya merupakan estimasi terhadap varians skor tes, mean
kuadratanatitem, dan men kuadrat interaksi itemsubjek yang merupakan estimasi
terhadap barians eror.
f.
Metode Berdasarkan Kovarian
Item
Kurangnya estimasi unik untuk konsistensi internal dari nilai tes dari sampel tunggal ujian pada satu kesempatan merupakan masalah yang mendapat banyak perhatian dalam literatur psikometri tahun 1930-an dan 1940-an. Kemudian dalam waktu yang relatif singkat tiga prosedur yang diusulkan diatasi masalah ini. Meskipun mereka tampak berbeda dalam bentuk, tiga prosedur yang dijelaskan di sini menghasilkan hasil yang identik. Tiga prosedur secara luas digunakan adalah Kuder Richardson 20, alpha Cronbach, dan analisis varians Hoyt itu. Mereka yang ingin membaca manual tes, tinjauan tes, atau literatur uji pengembangan lainnya harus mengakui kesetaraan metode ini untuk menghindari kebingungan. Kita akan menggunakan koefisien alpha istilah untuk merujuk ke kelas ini prosedur.
KOEFISIEN ALPHA. Pada tahun 1951, Cronbach disajikan sebuah sintesis komprehensif dan diskusi dari berbagai metode untuk memperkirakan konsistensi internal dan berhubungan mereka ke rumus umum yang dikenal sebagai alpha Cronbach.
g.
Hubungan
Alpha dengan
Estimasi Split-Half
Dengan perkembangan
antara tahun 1935 dan 1955 begitu banyak prosedur untuk mengestimasi
reliabilitas tes dari administrasi tes tunggal, maka tidak mengherankan bahwa
pengembang tes dalam periode ini agak bingung tentang metode yang digunakan
untuk estimasi konsistensi internal atau bagaimana menafsirkan estimasi
yang diperoleh
(Coombs, 1950a). Khususnya, munculnya alpha dan prosedur memicu kontroversi
tentang sifat yang sangat reliabilitas tes itu sendiri. Di satu sisi, teoretisi
seperti Loevinger (1947) berpikir bahwa homogenitas item
adalah
properti tes penting tapi tetap sebuah konsep yang berbeda dari gagasan
tradisional uji reliabilitas, didefinisikan sebagai korelasi antara dua bentuk
paralel (atau bagian) dari tes. Kelley (1942) mempertanyakan apakah itu bahkan
masuk akal untuk mempertimbangkan reliabilitas satu bentuk tes. Di sisi lain,
Cureton (1958) dan lain-lain menunjukkan reliabilitas yang dapat benar
didefinisikan sebagai rasio varians skor benar untuk varians skor diamati;
menurut definisi ini, tampaknya cukup tepat untuk mempertimbangkan reliabilitas
suatu bentuk tes tunggal. Secara historis, titik pandang kedua, dibantu oleh
Cronbach (1951), yang menjelaskan hubungan antara koefisien alpha dan
membagi-setengah prosedur estimasi. Diskusinya berisi poin-poin berikut pada interpretasi yang sesuai
koefisien alpha.
1. Koefisien alpha
dapat digunakan sebagai indeks konsistensi internal. Ini adalah
"karakteristik dari tes dimiliki oleh kebajikan intercorrelations positif
dari item menulis itu" (Kuder dan Richardson, 1937). Dalam menafsirkan
koefisien alpha, pengguna tes harus ingat bahwa estimasi ini menyiratkan
apa-apa tentang stabil dasarkan dari nilai tes
dari waktu ke waktu atau kesetaraan mereka untuk nilai pada salah satu bentuk
alternatif tertentu dari tes.
2. Koefisien alpha
dapat dianggap sebagai batas bawah ke reliabil teoritis dasarkan koefisien,
yang dikenal sebagai koefisien presisi. Jadi, itu bukan estimasi langsung dari
koefisien reliabilitas melainkan estimasi batas bawah koefisien itu. Jika kita
mendapatkan nilai koefisien alpha 0,75, adalah mustahil untuk mengetahui apakah
koefisien presisi sebenarnya lebih tinggi dari ini, atau seberapa jauh lebih
tinggi mungkin.
3. Alpha adalah mean
dari semua split-half koefisien mungkin yang dihitung dengan menggunakan metode
Rulon. Dengan kata lain, jika koefisien reliabilitas diperkirakan secara acak
membagi tes menjadi dua bagian dan koefisien komputasi Rulon itu, alpha adalah
nilai yang diharapkan dari estimasi tersebut.
4. Salah satu tafsir
umum dari koefisien alpha adalah bahwa nilai yang relatif tinggi untuk alpha
menunjukkan bahwa item yang diuji tidak
berdimensi (yaitu, bahwa kinerja pada item ini dapat dijelaskan dalam hal faktor yang
mendasari tunggal). Karena alpha adalah fungsi dari kovarian
item,
dan kovarians tinggi antara item dapat hasil dari lebih dari satu faktor umum,
alpha tidak boleh ditafsirkan sebagai ukuran unidimensionality tes itu. Sebagai
contoh, skor untuk item pada: est dalam studi sosial dapat ditentukan baik oleh
kemampuan menulis ujian 'dan dengan pengetahuan mereka tentang konten. Sehingga
tes tidak akan dianggap tidak
berdimensi (mengukur hanya satu sifat), tetapi karena semua skor item yang dipengaruhi
oleh dua kemampuan, tes dapat memiliki nilai koefisien alpha yang tinggi. Alpha
dapat diartikan, karena itu, sebagai batas bawah proporsi varians dalam skor
tes dijelaskan oleh faktor-faktor umum yang mendasari kinerja item. McDonald
(1981) menyajikan pembahasan yang lebih baru dari masalah ini, mengutip
beberapa contoh dan bukti yang berhubungan dengan titik ini.
Akhirnya,
harus dicatat bahwa koefisien alpha umumnya berlaku untuk situasi di mana reliabilitas
komposit diperkirakan. Ini bisa, misalnya, diterapkan untuk memperkirakan reliabilitas
total skor berdasarkan jumlah skor subtes beberapa. Dalam penggunaan yang
paling umum dari alpha, setiap item diambil sebagai subtes, tapi kita bisa mempertimbangkan kasus khusus di mana skor total adalah
gabungan dari nilai pada dua tes setengah-(seperti yang dibuat dalam studi reliabilitas
split-half). Dalam kasus khusus ini, dengan hanya dua komponen, koefisien
dilambangkan sebagai α2
dan
identik dengan estimasi reliabilitas yang
diperoleh
oleh metode Rulon atau metode
Guttman itu. Perhatikan bahwa hasil yang diperoleh dengan menggunakan α2
tergantung
pada komposisi dari dua tes setengah-tertentu, dan dengan demikian nilainya
belum tentu sama dengan nilai koefisien alpha diperoleh jika setiap item
diperlakukan sebagai komponen terpisah dari komposit skor tes total.
3.
INTER-RATER RELIABILITAS
Inter-rater
reliabilitas diperkirakan dengan pelaksanaan tes sekali tetapi memiliki respon
dinilai oleh pemeriksa yang berbeda. Dengan membandingkan nilai yang diberikan
oleh pemeriksa yang berbeda, kita dapat menentukan pengaruh dari perbedaan
penilai atau skornya. Inter-rater reliabilitas penting untuk memeriksa ketika
pemberian skor melibatkan penilaian yang cukup subjektif.
4.
FAKTOR-FAKTOR
YANG MEMPENGARUHI KOEFISIEN RELIABILITAS
a)
Kelompok
Homogenitas
Hal
ini jelas bahwa besarnya koefisien reliabilitas tergantung pada variasi antara
individu di kedua skor murni mereka dan skor kesalahan. Dengan demikian,
homogenitas dari kelompok ujian adalah suatu pertimbangan penting dalam
pengembangan tes dan seleksi tes. Misalkan bahwa tes telah dikembangkan untuk
mengukur kecemasan matematika. Jika tes ini diberikan kepada sekelompok siswa
di kelas matematika kehormatan elektif, para siswa mungkin akan melaporkan
tingkat rendah mirip kecemasan matematika. Akibatnya varians antara skor murni
ini ujian 'akan rendah, dan demikian juga koefisien reliabilitas. Jika ini tes
yang sama diberikan kepada sekelompok ukuran yang sama terdiri dari penampang
dari semua siswa SMA, skor murni akan ia lebih cenderung bervariasi. Dengan
asumsi bahwa varians kesalahan acak akan konstan untuk dua kelompok ukuran yang
sama, koefisien reliabilitas harus lebih tinggi untuk kelompok kedua sejak
varians skor murni mereka harus account
untuk persentase yang jauh lebih besar dari varians skor diamati. Tabel 7.5
menyajikan contoh hipotetis situasi ini, yang menggambarkan bahwa tes adalah
tidak "dapat diandalkan" atau "tidak dapat diandalkan."
Sebaliknya, reliabilitas adalah properti dari skor pada tes untuk kelompok
tertentu ujian. Dengan demikian, pengguna tes potensial perlu untuk menentukan
apakah reliabilitas estimasi dilaporkan dalam uji manual didasarkan pada sampel
yang sama dalam komposisi dan variabilitas kepada kelompok untuk siapa tes akan
digunakan. Jika sampel uji penerbit adalah lebih heterogen pada sifat yang
diukur, penurunan uji reliabilitas akan menghasilkan ketika tes digunakan pada
sampel yang lebih homogen. Sisipan perlu dicatat bahwa ketika tes adalah
terlalu keras atau terlalu mudah bagi sekelompok peserta ujian, pembatasan rentang
skor dan, akibatnya, varians skor murni
adalah mungkin hasilnya.
Gulliksen
(1950) disajikan ringkasan sejarah psikometri diskusi tentang hubungan antara
heterogenitas kelompok dan dampaknya pada uji reliabilitas. Magnusson (1967,
hal 75) lebih lanjut yang ditawarkan rumus berikut untuk memprediksi bagaimana reliabilitas
berubah ketika varians sampel
diubah.
Ketergantungan
reliabilitas klasik di varians skor benar juga menyiratkan koefisien
reliabilitas yang, sebagaimana didefinisikan sejauh ini, memiliki kegunaan
terbatas dalam menilai kualitas informasi yang diberikan oleh tes yang
digunakan untuk penyaringan atau seleksi. Dalam kasus ini pemeriksa biasanya
hanya peduli dengan apakah peserta ujian skor di atas atau di bawah skor cutoff
tertentu. Besaran varians skor benar dan diamati (rasio mereka) memiliki
relevansi kurang untuk proses pengukuran. Reliabilitas untuk tes yang digunakan
dalam cara ini dibahas pada Bab 9.
b)
Batas
Waktu
Ketika tes memiliki batas waktu yang kaku sehingga
beberapa menyelesaikan ujian tetapi yang lainnya tidak, menilai sebuah ujian
yang bekerja sistematis akan mempengaruhi kinerja nya pada semua bentuk tes
berulang-ulang. Dengan demikian, perbedaan dalam tingkat di mana peserta ujian
bekerja menjadi bagian dari varians skor benar. Pada beberapa tes (misalnya,
tes bakat atau tes matematika ulama perhitungan untuk orang dewasa) tujuan tes
itu konstruktor mungkin untuk menilai kemampuan untuk melakukan tugas-tugas
dengan cepat. Pada jenis lain dari tes, bagaimanapun, tingkat respon mungkin
tidak relevan dengan sifat yang diukur. Pada kedua jenis tes, batas waktu harus
cukup panjang untuk memungkinkan semua, atau hampir semua, ujian untuk
menyelesaikan. Jika tidak, estimasi reliabilitas mungkin artifisial meningkat
karena konsistensi dalam kinerja yang disebabkan oleh batas waktu tes, ketika
pemeriksa terutama tertarik pada tingkat konsistensi dalam kinerja tes yang
mungkin telah diamati memiliki semua ujian selesai tes. Diskusi yang lebih
rinci speededness pengujian dan identifikasi tes dipercepat disajikan dalam
Tuhan dan Novick (1968).
Inflasi buatan dari estimasi reliabilitas akan paling
serius untuk tes dipercepat jika aneh bahkan perpecahan-setengah prosedur yang
digunakan. Jelas sekali ujian yang kehabisan waktu, kinerja pada semua item
yang tersisa aneh dan bahkan bernomor terselesaikan akan benar-benar konsisten,
terlepas dari apakah item yang homogen dalam konten. Lain pendekatan
konsistensi internal juga akan menghasilkan estimasi reliabilitas
digelembungkan untuk alasan yang sama ketika tes ini sangat dipercepat. Jadi
mungkin paling tepat untuk menggunakan tes-tes ulang atau metode bentuk yang
ekuivalen untuk memperkirakan reliabilitas dari tes dipercepat. Sebuah variasi
dari metode bentuk yang ekuivalen adalah dengan membagi item tes menjadi dua
setengah tes terpisah dan mengelola setiap setengah-uji secara terpisah dengan
batas waktu sendiri. Reliabilitas uji penuh-panjang ini kemudian diperkirakan
dengan menggunakan Spearman Brown atau prosedur Guttman. Namun demikian, tidak
peduli metode apa yang digunakan, estimasi reliabilitas dari tes dipercepat
harus diinterpretasikan dengan hati-hati setiap kali tugas pada tes membutuhkan
lebih dari kemampuan untuk melakukan tugas-tugas sederhana pada kecepatan
tinggi.
c)
Panjang Tes
Salah satu aspek dari tes yang mempengaruhi baik varians skor
murni dan varians skor
diamati adalah panjang tes. Hal ini terlihat jika kita mempertimbangkan situasi
di mana pemeriksa dapat menggunakan tes yang terdiri dari hanya 1 item atau tes
yang terdiri dari 10 item (semua didasarkan pada konten yang sama).
Ketika panjang
tes ditingkatkan, nilai k akan selalu lebih besar dari 1, ketika panjang tes
menjadi menurun, nilai k akan kurang dari 1. Perlu dicatat bahwa kenaikan uji
reliabilitas diperoleh dari panjang tes meningkat mengikuti hukum hasil yang
menurun. Artinya, dua kali lipat panjang tes dengan reliabilitas 0,60 akan
meningkatkan reliabilitas untuk 75; tiga kali lipat panjang tes akan
meningkatkan reliabilitas untuk 0,81, tetapi meningkatkan panjang tes untuk
lima kali panjang aslinya hanya akan menghasilkan dalam koefisien reliabilitas
0,88. Dengan demikian, di beberapa titik, kenaikan kecil di reliabilitas
diperoleh dengan menambahkan lebih banyak item mungkin tidak akan membenarkan
peningkatan penulisan item dan pengujian waktu. Selanjutnya, proyeksi Spearman Brown
adalah refleksi akurat dari reliabilitas hanya jika item ditambahkan atau
dihapus adalah paralel dalam konten dan kesulitan untuk item pada tes asli.
5.
ESTIMASI SKOR MURNI
Meskipun nilai dari skor murni yang diberikan kepada peserta ujian tidak pernah
dapat tepat ditentukan, estimasi
dapat diperoleh
dari persamaan regresi untuk memprediksi secara umum. Karena skor murni di estimasi dapat dengan mudah dihitung, pengguna
tes sesekali dapat mendukung penggunaan mereka, dengan alasan bahwa estimasi skor
murni harus menghasilkan keputusan yang lebih tepat tentang ujian. Hal ini
belum tentu demikian. Sebagai aturan umum tidak ada keuntungan dalam
memperkirakan skor murni untuk satu kelompok peserta ujian yang akan
dibandingkan berdasarkan norma-direferensikan. Seorang instruktur yang baik
menghitung skor mentah dan skor murni di estimasi untuk siswa akan menemukan bahwa cara
dari dua distribusi adalah sama, dan lebih jauh lagi, semua peserta ujian akan
mencetak dalam urutan peringkat yang sama pada dua distribusi. Hanya standar deviasi
dari dua distribusi akan berbeda (dengan standar deviasi dari nilai yang benar
yang lebih kecil).
Dalam situasi di mana peserta ujian dialokasikan untuk
penempatan yang berbeda berdasarkan pada apakah mereka jatuh di atas atau di
bawah skor cutoff mutlak, penggunaan skor murni diperkirakan dapat memiliki
konsekuensi penting yang harus diperiksa secara menyeluruh sebelum kebijakan
seperti diadopsi. Pertimbangkan kasus di mana peserta ujian harus ditempatkan
ke dalam perbaikan atau program khusus berdasarkan hasil tes. Siswa yang
mendapat skor di bawah 80 akan ditempatkan di kelas untuk pendidikan keterbelakangan
mental; mereka yang skor di atas 130 akan ditempatkan di kelas untuk anak berbakat. Misalkan
bahwa Joseph mencetak 79 poin pada skala kecerdasan dan Karen mencetak 132.
Menggunakan skor baku, baik anak-anak akan memenuhi syarat sebagai mahasiswa
luar biasa dan akan memenuhi syarat untuk layanan khusus. Menggunakan estimasi skor
murni, namun, di mana 100 adalah kelompok rata-rata, dan nilai Pxx, adalah
0,90, estimasi skor murni.
Jadi, ujian tidak akan memenuhi syarat untuk program
khusus. Sebaliknya, pertimbangkan bagaimana hasilnya akan berubah jika bukan
mean total kelompok, hanya rata-rata subkelompok siswa di kelas pendidikan keterbelakangan
mental digunakan. Jika skor rata-rata untuk kelompok
ini adalah 65, skor benar Joseph
diperkirakan
akan = .90 (79 - 65)
+ 65 = 77,6
dan atas dasar estimasi
skor murni, Joseph akan diklasifikasikan sebagai terbelakang mental. Contoh ini
menggambarkan pentingnya identifikasi kelompok norma yang sesuai jika estimasi skor
murni akan digunakan untuk pengambilan keputusan tentang individu.
Sebagai aturan umum, adalah lebih baik untuk menggunakan
total kelompok berarti bukan berarti subkelompok, yang didasarkan pada sampel
yang relatif kecil dan karenanya mungkin tidak stabil. Hal ini jelas praktek dipertanyakan
untuk membuat subkelompok berdasarkan
skor tes dan kemudian menggunakan cara subkelompok untuk estimasi nilai yang
benar pada tes atau tes serupa (seperti yang diilustrasikan pada contoh
sebelumnya). Penggunaan sarana subkelompok untuk estimasi nilai yang benar
adalah yang paling mungkin dibenarkan ketika subkelompok dibentuk berdasarkan
variabel demografis atau instruksional alam yang tidak terkait untuk menguji.
Sebagai contoh, dalam memperkirakan nilai sebenarnya dari hitam, putih, dan
siswa Hispanik, kita mungkin ingin menggunakan subkelompok ras berarti bukan
berarti total kelompok.
Meskipun dalam kebanyakan situasi estimasi nilai yang
benar adalah tidak perlu, kita harus menyebutkan secara singkat bahwa ada
beberapa jenis penelitian atau evaluasi mana mungkin menguntungkan. Suatu masalah
yang muncul dalam beberapa studi adalah perbandingan persamaan regresi untuk
dua atau lebih kelompok yang memiliki skor rata-rata tidak sama pada prediksi. Masalah ini
dapat terjadi dalam penggunaan analisis kovarians non-setara desain kelompok
kontrol (Campbell dan Stanley, 1963) dan dalam studi bias item. Penggunaan
nilai yang diamati dapat membuat perbedaan kelompok dalam persamaan regresi
yang tidak akan muncul jika skor murni yang tersedia. Hunter dan Cohen (1974)
telah menunjukkan bahwa penggunaan skor murni diperkirakan dapat mengatasi
masalah ini dalam regresi linear dan mengurangi hal itu dalam analisis regresi
nonlinear.
6.
SELISIH SKOR
RELIABILITAS
Ada beberapa
kesempatan dalam diagnosis penelitian, evaluasi, dan klinis ketika dua tes diberikan, namun variabel
yang menarik adalah perbedaan antara nilai tes. Dua contoh umum adalah:
a.
Evaluator ingin menentukan keuntungan
dalam kinerja untuk setiap ujian dari waktu ke waktu, dengan
menggunakan tes yang sama.
b.
Seorang dokter, mengidentifikasi
ketidakmampuan belajar, tertarik pada perbedaan antara kinerja ujian pada dua
tes yang berbeda atau subyek (misalnya, bahasa pengolahan dan nilai produksi
bahasa subtes).
7.
MENGGUNAKAN
ESTIMASI ERROR DALAM INTERPRETASI SKOR
Estimasi reliabilitas
mungkin berguna untuk membandingkan dua atau lebih tes, namun dalam menafsirkan
skor suatu ujian individu, indeks kesalahan yang diharapkan dalam skor tes akan
lebih berguna. Setidaknya
ada tiga jenis kesalahan, awalnya diidentifikasi oleh Kelley (1927), telah
dianggap relevan dengan interpretasi skor tes yang diuji ini:
a.
Perbedaan antara skor murni dan skor yang diamati peserta ujian untuk pengujian
tertentu
b.
Perbedaan antara skor yang diamati diuji pada satu
tes dan skor prediksi pada bentuk
paralel tertentu pada tes.
c.
Perbedaan antara skor murni dan prediksi skor murni peserta ujian.
Jika pengguna
tes prihatin tentang jenis kesalahan pertama, estimasi standar kesalahan pengukuran harus
digunakan. Seperti tercantum dalam Bab 6, standar kesalahan pengukuran dapat
dipandang sebagai standar deviasi dari perbedaan antara skor murni diuji dan skor yang diamati melalui
jumlah tak terbatas pengujian berulang.
Ada
saat-saat dalam interpretasi skor tes dengan siswa, orangtua, atau konseli
ketika
diskusi skor murni ujian teoritis
mungkin tidak praktis. Dalam hal ini kedua jenis kesalahan, standar kesalahan
estimasi, harus digunakan. Standar kesalahan estimasi untuk prediksi skor suatu
ujian yang di formulir 2 dari skor yang dikenal pada formulir 1 adalah
= Erx, V1 -
Ai, xi. Sangat menarik
untuk dicatat bahwa interval yang dihasilkan dengan menggunakan standar
tersebut. Hal ini logis, namun, jika kita mengingat bahwa kesalahan pengukuran
pada kedua tes 1 dan tes 2 akan mempengaruhi interval kepercayaan kedua.
Jenis ketiga
dari standar kesalahan, berdasarkan pada perbedaan antara nilai aktual dan
prediksi skor murni, jarang digunakan
dalam penafsiran skor praktis dan dengan demikian tidak akan dibahas di sini.
Gulliksen (1950, hal 43) menyajikan formula dan derivasi untuk standar kesalahan
pengukuran. Kami mencatat bahwa kepercayaan hanya interval berdasarkan statistik
ini diperkirakan sekitar skor murni
ujian,
daripada skor diamati, dan lebih kecil dari interval kepercayaan yang
didasarkan pada dua jenis standar kesalahan.
PENGAYAAN
1.
Mengevaluasi Koefisien
Reliabilitas
Pertanyaan penting lain
ketika mempertimbangkan koefisien reliabilitas adalah “seberapa besar
seharusnya koefisien reliabilitas?” mengingat, kita mengatakan uji koefisien
reliabilitas dapat diartikan sebagai tafsiran proporsi varian skor tes yang di
akibatkan oleh varian skor murni. Idealnya koefisien reliabilitas adalah 1.0
sebab hal ini mengindikasikan bahwa 100 % dari skor tes varian adalah mutlak
karena perbedaan antara individu. Akan tetapi, karena kesalahan pengukuran,
reliabilitas yang sempurna tidak dapat dicapai. Koefisien reliabilitas
dipengaruhi oleh beberapa faktor yaitu Konstruk yang di ukur, jumlah waktu yang
tersedia untuk testing, cara pemberian skor, dan metode estimasi
reliabilitas.
a. Konstruk. Beberapa konstruk lebih sulit untuk diukur dari pada konstruk
lain karena daerah pokok lebih sulit untuk menyampel secara memadai. Kebiasaan
pada umumnya, variabel-variabel personal lebih sulit untuk di ukur dari pada
pengetahuan akademik. Akibatnya, level reliabilitas yang diterima untuk mengukur
“ketergantungan” dianggap ditolak untuk mengukur komprehensi/pemahaman membaca.
Dalam mengevaluasi penerimaan suatu koefisien reliabilitas harus
mempertimbangkan sifat dari variabel penelitian dan bagaimana kesulitan dalam
mengukurnya. Dengan meninjau dan membandingkan estimasi reliabilitas dari
instrument-instrumen yang tersedia untuk mengukur suatu konstruk, dapat
ditentukan mana ukuran konstruk yang paling dipercaya.
b. Waktu yang tersedia untuk testing. Jika waktu yang
tersedia untuk testing terbatas, jumlah item yang bisa diatur terbatas pula dan
sampling dari domain tes membuka peluang bagi terjadinya error yang lebih
besar. Ini dapat terjadi dalam sebuah proyek penelitian yang kepala sekolahnya
mengijinkan anda untuk melakukan study disekolahnya tetapi waktu yang
diperkenankan untuk mengukur semua variabel dalam penelitian anda hanya 20
menit. Contoh lain, penyaringan untuk masalah membaca yang dihadapi siswa
dimana waktu yang diberikan tiap siswa hanya 15 menit. Sedangkan seorang
psikolog mungkin butuh waktu 2 jam untuk tes kecerdasan individual yang
terstandarisasi. Adalah tidak mungkin diharapkan level reliabilitas yang sama
dari perbedaan signifikan proses pengukuran yang berbeda. Namun demikian,
membandingkan koefisien reliabilitas yang terkait dengan instrumen yang dapat
diatur dalam parameter situasi testing bisa membantu seseorang memilih instrumen yang terbaik untuk situasi ini.
c. Penggunaan skor tes. Cara penggunaan skor tes merupakan
pertimbangan pokok lainnya ketika mengevaluasi kecukupan koefisien
reliabilitas. Tes diagnostik yang membentuk dasar untuk keputusan-keputusan
utama tentang individu harus dilakukan dengan standar yang lebih tinggi dari
pada tes yang digunakan pada penelitian kelompok atau untuk penyaringan
sejumlah besar individu. Contoh, diberikan tes kecerdasan individual yang
digunakan dalam diagnosis keterbelakangan mental akan diharapkan untuk
menghasilkan skor level reliabilitas yang sangat tinggi. Dalam konteks ini,
kinerja pada tes kecerdasan memberikan informasi kritis yang digunakan untuk
menentukan apakah seseorang memenuhi kriteria diagnostik. Sebaliknya, tes yang
digunakan untuk menyaring semua siswa di sekolah dalam masalah membaca,
diadakan untuk standar yang kurang ketat. Dalam keadaan ini, instrumen yang
digunakan hanya untuk tujuan penyaringan dan tidak ada keputusan yang dibuat.
Hal ini mengingatkan walaupun reliabilitas tinggi yang diinginkan dalam semua
penilaian, standar yang dapat diterima bervariasi dengan cara tes skor yang
bisa digunakan. Keputusan yang tinggi menuntut reliabilitas yang tinggi.
d. Metode estimasi reliabilitas. Ukuran koefisien reliabilitas juga berhubungan
dengan cara memilih pada estimasi reliabilitas. Beberapa metode cenderung
menghasilkan estimasi yang tinggi dari pada metode lain. Sebagai akibatnya, ini
sangat penting untuk mempertimbangkan metode yang akan digunakan untuk
menghasilkan korelasi koefisien ketika mengevaluasi dan membandingkan
reliabilitas tes-tes yang berbeda. Contoh, KR-20 dan koefisien tipe alpha
biasanya menghasilkan reliabilitas estimasi lebih kecil dari pada yang
diperoleh dengan menggunakan metode split-half (bagi dua). dalam tabel 4.5,
reliabilitas bentuk alternatif yang pelaksanaannya ditunda/tertunda memiliki
banyak sumber eror dari pada metode lain yang dan biasanya menghasilkan
koefisien reliabilitas yang rendah. Ringkasnya, beberapa metode estimasi
reliabilitas lebih tepat dan cenderung menghasilkan koefisien yang lebih besar,
dan variabel ini seharusnya menjadi pertimbangan ketika mengevaluasi koefisien
reliabilitas.
Pedoman Umum. Meskipun sudah jelas bahwa banyak faktor pertimbangan yang
pantas ketika mengevaluasi koefisien reliabilitas, kita akan tetap menyediakan
/ memberikan beberapa pedoman umum.
1. Jika sebuah tes
digunakan dalam mengambil keputusan penting yang berdampak secara signifikan terhadap seseorang, koefisien
reliabilitasnya 0.90 atau 0.95. Jika sebuah tes digunakan dalam mengambil
keputusan penting yang memungkinkan pengaruh signifikan terhadap seseorang dan
tidak mudah sebaliknya, itu layak untuk mengira koefisien reliabilitasnya 0.90
atau 0.95. Level ini secara teratur bisa diperoleh dalam tes kecerdasan
individual. Contoh, reliabilitas skala kecerdasan orang-orang dewasa wechsler-
edisi ketiga (wechsler, 1997), hasil tes kecerdasan individual diperoleh 0.98.
2. Estimasi reliabilitas
0.80 atau lebih, dapat diterima dalam situasi tes apapun dan biasanya pada laporan-laporan dari tes
prestasi dan kepribadian menunjukkan hal ini.
Contoh, The California
Achievement Test/5 (CAT/5) (CTB/Macmillan/McGraw-Hill, 1993), sebuah kumpulan
grup pengaturan tes prestasi yang sering digunakan dalam sekolah umum,
koefisien reliabilitasnya melebihi 0.80 untuk sebagian besar sub tes.
3. Tes kelas yang dibuat oleh
guru dan tes yang digunakan untuk penyaringan, reliabilitas estimasi sekurang-kurangnya
0.70. Tes dalam kelas sering dikombinasikan untuk membentuk gabungan dari hasil
tes untuk menentukan nilai akhir, dan reliabilitas gabungan tersebut diharapkan
menjadi lebih besar dari pada reliabilitas tes individu. Koefisien sebesar
0.70an juga dapat diterima ketika
prosedur pendugaan yang diteliti tersedia berkaitan dengan kasus-kasus
individual.
Menurut
beberapa penulis koefisien reliabilitas 0.60 masih bisa diterima untuk
penelitian grup, penilaian, dan pengukuran proyektif, tapi kami tidak menyarankan
penggunaan penilaian-penilaian yang menghasilkan skor estimasi reliabilitasnya
dibawah 0.70. untuk diingat kembali, koefisien reliabilitas 0.60
mengindikasikan bahwa 40 % dari varian yang di observasi dapat merupakan random erorr. Seberapa besar kepercayaan anda
terhadap hasil sebuah penilaian ketika anda tahu bahwa 40% dari varian
merupakan random error?
Petunjuk
terdahulu dalam koefisien reliabilitas dan besarnya keputusan kualitatif juga
menjadi pertimbangan dalam konteks ini. Beberapa konstruk lebih sulit diukur secara reliabel dari pada
yang lain. Dari sudut pandang/perspektif pembangunan atau perkembangan, kita
tahu bahwa munculnya ketrampilan - ketrampilan atau sikap dalam diri anak lebih
sulit di ukur dari pada orang dewasa atau perkembangan ketrampilannya. Ketika
suatu konstruk sulit di ukur, beberapa koefisien reliabilitas lebih besar dari 0.50
mungkin baik diterima karena masih terdapat lebih banyak lagi varian skor murni
yang berkaitan dengan error varian. Namun demikian, sebelum memilih untuk
mengukur dengan koefisien reliabilitas dibawah 0.70, pastikan memang tidak ada
instrumen pengukuran yang lebih baik yang tersedia.
2.
Bagaimana Meningkatkan
Reliabilitas
Pertanyaan pokok pada
poin ini adalah “apa yang bisa kita lakukan untuk meningkatkan reliabilitas
hasil penilaian kita?” pada intinya kita bertanya langkah-langkah apa yang
dapat di ambil untuk memaksimalkan skor varian murni dan meminimalkan varian
error, bisa jadi pendekatan yang paling umum untuk meningkatkan reliabilitas
pengukuran adalah dengan menambah jumlah item tes. Dalam konteks tes individu,
Jika penambahan jumlah item tes dilakukan sambil tetap menjaga kesamaan
kualitas dengan item aslinya, maka kita bisa meningkatkan reliabilitas tes. Konsep ini telah
diperkenalkan sebelumnya pada saat membahas tentang reliabilitas belah dua dan
presentasi Formula Spearman-Brown. Pada kenyataannya, fariasi Formula
Spearman-Brown dapat digunakan untuk memprediksi efek penambahan item tes
terhadap reliabilitas tes:
Dimana:
: Estimasi reliabilitas dalam tes dengan item
baru
n :
Faktor yang menunjukkan penambahan item tes
: Reliabilitas
tes awal (sebelumnya)
Untuk contoh, digunakan
25 bentuk soal tes matematika. Jika reliabilitas tesnya ada 0.80 dan kita
mengestimasi untuk meningkatkan reliabilitas kita dengan cara menambah 30
bentuk tes rumusnya menjadi:
r = 1,2
x 0,80 = 0,96 =
0,83
1+(1,2-1)0,80 1,16
Tabel menyediakan contoh-contoh
lain yang menggambarkan akibat dari penambahan item tes terhadap reliabilitas.
Pada baris pertama dari tabel tersebut terlihat bahwa penambahan jumlah item tes
pada tes yang reliabilitasnya 0.50 dengan factor 1.25 menghasilkan reliabilitas
prediksi sebesar 0.56. Menambah jumlah item dengan faktor 2.0 (i.e.,
menggandakan jumlah item tes) meningkatkan reliabilitas menjadi 0.67. Dalam
situasi tertentu beberapa faktor akan membatasi jumlah item yang bisa
dimasukkan dalam sebuah tes. Contoh, guru pada umumnya mengembangkan tes yang
diselenggarakan dalam interval waktu tertentu, biasanya waktu yang di
alokasikan untuk jam pelajaran tertentu.
Dalam
situasi tersebut, reliabilitas dapat ditingkatkan dengan menggunakan beberapa
pengukuran yang dikombinasikan untuk memperoleh skor rata-rata atau skor
gabungan. Sebagaimana yang telah dikemukakan sebelumnya, mengkombinasikan
beberapa tes multipel dalam sebuah komposit linear akan meningkatkan
reliabilitas pengukuran komponen tes. Singkatnya, apapun yang kita lakukan untuk
memperoleh sampel yang memadai akan meningkatkan reliabilitas pengukuran kita.
Sebelum
diskusi tentang prosedur-prosedur secara detail, harus dicatat bahwa pilihan atau
pengembangan bentuk yang bagus merupakan hal penting dalam tahap pengembangan
tes yang baik. Memilih dan mengembangkan bentuk tes yang baik akan mempertinggi
karakteristik pengukuran dari penilaian yang anda gunakan.
3.
Masalah-Masalah Spesifik
dalam Mengestimasi Reliabilitas
a.
Reliabilitas Tes
Kecepatan. Sebuah tes kecepatan umumnya terdiri dari item-item yang relatif
mudah namun dengan waktu yang terbatas sehingga tidak memungkinkan bagi setiap
peserta tes untuk dapat menjawab dengan benar seluruh pertanyaan. Akibatnya,
skor peserta tes pada tes kecepatan pada dasarnya merefleksikan kecepatan
performans. Pada saat mengestimasi reliabilitas dari hasil tes kecepatan,
estimasi yang diturunkan dari sebuah tes tunggal adalah tidak tepat. Karena
itu, tes ulang atau reliabilitas bentuk
paralel dalam tes kecepatan adalah tepat, sedangkan tes belah dua, koefisien
alpha, dan KR 20 harus dihindarkan.
b.
Reliabilitas sebagai
fungsi level skor. Meski merupakan sesuatu yang sangat diharapkan, namun sebuah tes
tidaklah selalu dapat mengukur dengan tingkat ketelitian yang sama dalam
keseluruhan range skor. Jika suatu kelompok individu diberikan tes yang terlalu
mudah atau terlalu sulit bagi mereka, sangat mungkin terjadi kita akan memiliki
tambahan eror dalam skor. Akurasi yang rendah terjadi pada distribusi yang
ekstrim di mana skor tes yang diperoleh menunjukan hasil yang semua benar atau
semua salah. Dalam situasi seperti ini, adalah tidak cermat jika kita kemudian
mengambil kesimpulan bahwa siswa yang gagal menjawab dengan benar semua
pertanyaan yang diberikan pada tes intelektual adalah siswa yang tidak memiliki
kecerdasan intelektual. Karena bisa saja yang terjadi adalah tes yang digunakan
ternyata tidak cukup memadai untuk memberikan penilaian atas “kecakapan tingkat
rendah” (low-level skill) yang
diperlukan untuk mengukur kecerdasan intelektual anak. Hal ini berhubungan
dengan kedaaan dimana tes tidak memiliki “lantai” (batas bawah) yang memadai.
Sebaliknya, adalah juga tidak cermat jika membuat laporan bahwa siswa yang
mampu menjawab dengan benar semua pertanyaan pada tes intelektual adalah siswa
yang memiliki kecerdasan luar biasa. Bisa saja terjadi bahwa tesnya benar-benar
terlalu mudah untuk sebuah pengukuran yang memadai, berkaitan dengan situasi
dimana tes tidak memiliki “plafon” (batas atas) yang cukup. Jadi, untuk kedua
kasus ini kita membutuhkan tes yang lebih cocok. Pada umumnya, tes bakat dan
tes prestasi dirancang untuk digunakan pada individu dengan level kemampuan
tertentu. Ketika sebuah tes digunakan pada individu, baik dengan hasil yang
ekstrim maupun di luar itu, skornya mungkin tidak akan seakurat estimasi
reliabilitas yang ditunjukkan. Dalam situasi seperti ini, studi lebih lanjut
tentang reliabilitas dari skor ditunjukan pada level ini.
c.
Pembatasan rentangan
(range). Nilai
yang kita peroleh ketika menghitung koefisien reliabilitas tergantung pada
karakteristik sampel atau kelompok individu yang menjadi basis analisis. Salah
satu karakteristik sampel yang berpengaruh signifikan (penting) terhadap
koefisien reliabilitas adalah “tingkat/derajat variasi yang ditunjukan”
(varian). Lebih tepatnya, koefisien reliabilitas yang didasarkan pada sampel
dengan varian yang besar (mengacu pada heterogenitas sampel) umumnya akan
menghasilkan estimasi reliabilitas yang lebih tinggi daripada koefisien
reliabilitas yang berbasis pada sampel dengan varian yang lebih kecil
(berhubungan dengan homogenitas sampel). Ketika koefisien reliabilitas
didasarkan pada sampel dengan range (rentangan) variabilitas yang dibatasi,
koefisien mungkin sebenarnya lebih rendah dari estimasi reliabilitas
pengukuran. Sebagai contoh, jika anda mendasarkan analisis reliabilitas pada
siswa di kelas anak-anak berbakat di mana praktis semua skor menunjukan hasil
yang patut dicontoh (misalnya >90% benar), anda akan mendapatkan estimasi
reliabilitas yang lebih rendah ketimbang analisis yang sama yang dilakukan pada
kelas dengan distribusi skor yang lebih luas dan mendekati normal.
d.
Tes Penguasaan (Mastery
Testing).
Tes yang mengacu pada
criteria tertentu (criterion-referenced test) digunakan untuk membuat
interpretasi relatif terhadap level
performance tertentu. Contoh dari tes ini adalah tes penguasaan untuk
mengevaluasi performance dalam arti lebih sebagai pencapaian suatu skor yang
dipotong daripada sekedar mengukur tingkat pencapaian. Perhatian dari tes ini
lebih kepada klasifikasi. Setiap peserta, baik yang memiliki skor yang sama
dengan skor yang dipotong maupun yang memiliki skor di atasnya, diklasifikasikan
sebagai telah menguasai skill atau domain. Sebaliknya, mereka yang memiliki
skor di bawah skor yang dipotong diklasifikasikan sebagai belum menguasai. Tes
penguasaan sering menghasilkan variabilitas terbatas antar peserta tes juga
antar hasil tes dengan koefisien reliabilitas yang kecil. Akibatnya, estimasi reliabilitas
yang didiskusikan pada bab ini tidak cukup untuk menilai reliabilitas skor tes
penguasaan. Dengan penekanan pada klasifikasi tersebut, pendekatan yang
direkomendasikan adalah dengan menggunakan indeks yang merefleksikan
konsistensi klasifikasi (AERA, dkk, 1999).
4.
Standar Kesalahan
Pengukuran
Koefisien
reliabilitas diinterpretasikan dalam bentuk proporsi dari variansi pengamatan
yang terkait dengan variansi kebenaran dan cara yang bermanfaat untuk
membandingkan skor realibitas yang dihasilkan dari prosedur penilaian yang
berbeda. Hal lain dijadikan sama, kamu akan meyeleksi tes yang menghasilkan
skor dengan reliabilitas yang terbaik. Akan tetapi, segera setelah tes itu
diseleksi dan fokusnya pada menafsirkan skor, standar kesalahan Pengukuran
(SEM) adalah suatu cara statistik yang lebih praktis. SEM adalah standar deviasi dari distribusi skor yang
diperoleh dari seseorang jika dites dalam jumlah yang tak terbatas, dan dari
bentuk test paralel yang terdiri dari item-item yang secara random dijadikan
sampling dari kandungan/isi domain yang sama. Dengan kata lain jika kita
mengkreasikan jumlah yang tidak terbatas dari bentuk paralel sebuah test
dan memiliki orang yang sama tanpa efek2
yang dibawa, kehadiran dari kesalahan pengukuran mencegah seseorang dalam
memperoleh skor yang sama setiap waktu. Meskipun setiap tes kemungkinannya
memiliki kandungan domain yang sama, pengambil tes akan tampil lebih baik pada
beberapa tes dan lebih buruk pada tes lainnya, hal ini disebabkan karena kesalahan random. Pengambilan skor yang
diperoleh pada semua tes akan
menghasilkan distribusi skor. Pengertian dari distribusi tersebut di atas adalah
skor individual sebenarnya (T) dan SEM adalah deviasi standar dari distribusi
skor yang eror. Jelasnya, kita tidak akan mudah untuk mengikuti
prosedur-prosedur ini dan harus mengestimasi SEM menggunakan informasi yang
tersedia untuk kita.
a.
Mengevaluasi Standar
Kesalahan Pengukuran
SEM
adalah fungsi dari reliabilitas (rxx) dan standar deviasi (SD) dari
tes. Ketika mengkalkulasi SEM, koefisien reliabilitas mempertimbangkan
pengukuran eror yang terdapat dalam skor tes, dan standar deviasi merefleksikan
reliabilitas dari skor-skor dalam sebuah distribusi.
b.
Menghitung Interval Kepercayaan.
Interval
kepercayaan mencerminkan kisaran skor dimana mengandung skor individual yang
benar dengan probabilitas yang ditentukan (AERA, dkk,1999). Kita menggunakan SEM
untuk mengkalkulasi interval kepercayaan. Ketika memperkenalkan SEM, kita mengatakan
SEM menyediakan informasi tentang distribusi dari skor yang diamati disekitar
skor yang benar. Lebih tepatnya, kita mendefenisikan SEM sebagai deviasi
standar dari distribusi skor-skor yang eror. Seperti deviasi standar lainnya
SEM dapat diinterpretasikan ke dalam bentuk frekuensi-frekuensi yang
dipresentasikan dalam bentuk distribusi normal.
Pada
bab sebelumnya kita tunjukan bahwa kira-kira 68% dari skor dalam distribusi
normal terletak diantara satu deviasi standar dibawah rata-rata (mean) dan satu
deviasi standar diatas rata (mean). Hasilnya kira-kira 68% dari waktu skor
individual yang diamati diharapkan menjadi ± 1 SEM dari skor yang benar.
Contohnya, jika seorang memiliki skor yang benar yaitu 70 dalam sebuah test
dengan SEM 3 kemudian kita mengharapkan orang itu memperoleh skor diantara 67
dan 73, (skor yang diperoleh ±1 SEM) 68% dari waktu. Jadi kita dapat berharap
skornya diantara 64,12 dan 75,88 dengan interval kepercayaan 95% (diperoleh
skor ± 1,96 SEM).
Hal
ini menjadi catatan akan hubungan antara reliabilitas dari skor tes, SEM, dan
interval kepercayaan. Ingat, kita mencatat bahwa skor reliabilitas bertambah,
SEMnya berkurang. Hubungan yang sama terjadi antara reliabilitas tes dan interval kepercayaan.
Bila reliabilitas skor tes bertambah (menunjukkan kurangnya kesalahan
pengukuran), interval kepercayaan menjadi lebih kecil. (menunjukkan ketelitian
dalam pengukuran).
Keuntungan
dari SEM dan penggunaan interval kepercayaan adalah bahwa mereka menyajikan dan
mengingatkan kita bahwa kesalahan pengukuran ada dalam semua skor dan kita
seharusnya menginterpretasikan skor dengan hati-hati. Suatu skor tunggal sering
diinterpresatikan jika itu tepat dan tidak terkait dengan eror. Contoh, jika
Susie memiliki skala IQ 113, orangtuanya mungkin menyatakan secara tidak
langsung IQnya Susie persis 113. Jika kita menggunakan tes IQ tingkat tinggi
seperti Wechsler Intelligence Scale for Children- edisi IV atau Reynolds
Intellectual Assessment Scales, kemungkinan diperoleh estimasi yang bagus dari
IQnya tersebut. Akan tetapi, instrument penilaian yang baik diperoleh skor yang
mengandung beberapa tingkat kesalahan dan SEM, dan interval kepercayaan membantu
kita mengilustrasikan itu. Informasi ini dapat dilaporkan dengan cara yang
berbeda dalam laporan-laporan tertulis. Contohnya, Kaufman dan Lichtenberger
(1999) merekomendasikan format berikut ini: Susie memperoleh skala IQ 113
(antara 108 dan 118 dengan kepercayaan 95%). Kamphaus (2001) merekomendasikan
format yang sedikit berbeda: Susie memperoleh skala IQ diatas rata-rata, dengan 95% kemungkinan IQnya turun antara 108 dan 118.
Terlepas
dari format tepat yang digunakan, cakupan interval kepercayaan menyoroti fakta
bahwa skor tes mengandung beberapa derajat kesalahan pengukuran dan harus
diinterpretasikan dengan hati-hati. Kebanyakan tes profesional yang
dipublikasikan baik skor-skor yang dilaporkan dimana pengambil skor tes
kemungkinan surut atau memberikan informasi dalam menghitung interval
kepercayaan ini.
BAB III
KESIMPULAN
Reliabilitas mengacu pada konsistensi skor tes.
Jika tes atau prosedur penilaian lainnya menghasilkan pengukuran yang
konsisten, skornya dapat dipercaya. Mengapa reliabilitas begitu penting?
Sebagaimana yang telah kita tekankan, penilaian berguna karena memberikan
informasi yang membantu pendidik membuat keputusan yang lebih baik. Namun,
reliabilitas (dan validitas) merupakan informasi pokok yang penting.
Bagi kita untuk membuat keputusan yang baik,
kita perlu informasi yang dapat dipercaya. Dengan mengestimasi reliabilitas
hasil penilaian, kita mendapatkan indikasi seberapa banyak kepercayaan kita
dapat ditempatkan di dalamnya. Jika kita memiliki informasi yang sangat reliabel
dan valid, kemungkinan besar kita dapat menggunakan informasi tersebut untuk
membuat keputusan yang lebih baik. Jika hasil tidak reliabel, informasinya
merupakan nilai yang kecil bagi kita.
Kesalahan pengukuran mengurangi reliabilitas
pengukuran dan karena itu mengurangi kegunaan pengukuran. Meskipun ada beberapa
sumber kesalahan pengukuran, yang utama adalah pengambilan sampel konten dan
kesalahan waktu sampling. Kesalahan sampling konten mengurangi kesempurnaan
sampling dari domain konten.
Tes yang lebih representatif dari domain konten,
mengurangi kesalahan dalam sampling konten yang mengancam reliabilitas tes.
Kesalahan waktu sampling merupakan hasil dari perubahan acak pengambil tes atau
lingkungan dari waktu ke waktu. Para ahli dalam pengujian dan pengukuran telah
mengembangkan metode estimasi kesalahan ini dan sumber lainnya, termasuk
pendekatan utama untuk mengestimasi reliabilitas
Meskipun koefisien
reliabilitas berguna ketika membandingkan reliabilitas dari tes yang berbeda,
standar error pengukuran (SEM) lebih berguna ketika menginterpretasikan skor.
SEM adalah suatu indeks jumlah kesalahan dalam skor tes dan digunakan dalam
menghitung interval kepercayaan di mana kita dapat menentukan nilai nilai yang
benar. Suatu keuntungan dari SEM dan penggunaan interval keyakinan bahwa SEM
mengingatkan kita bahwa kesalahan pengukuran hadir dalam semua skor dan kita
harus berhati-hati ketika menginterpretasikan skor.
DAFTAR
PUSTAKA
Azwar. S. (2007). Reliabilitas
dan validitas. Yogyakarta: Pustaka Pelajar