PROSEDUR MENGESTIMASI RELIABILITAS


PENDAHULUAN

Dalam bab sebelumnya model teoritis disajikan untuk mengkarakterisasi pengaruh kesalahan acak pa
da nilai tes. Menurut model klasik skor murni, koefisien reliabilitas didefinisikan sebagai korelasi antar tes paralel. Koefisien reliabilitas yang ditunjukkan juga harus setara dengan proporsi varian skor yang diamati disebabkan oleh varian pada nilai ujian yang benar. Dalam prakteknya, bagaimanapun juga, pengembang tes tidak dapat dijamin untuk menciptakan pengukuran paralel yang sempurna, atau nilai murni pada ujian bisa diperoleh. Lalu bagaimana bisa koefisien reliabilitas untuk satu set pengukuran ditentukan? Jawabannya adalah bahwa koefisien reliabilitas untuk satu set nilai tidak pernah dapat ditentukan secara pasti, tetapi bisa diperkirakan
bagi sampel tertentu pada item tes. Perhatikan bahwa estimasi tidak mengacu pada melihat data dan membuat penafsiran tentang reliabilitas melainkan untuk komputasi nilai numerik dari sampel pengamatan, yang merupakan estimasi kuantitas teoritis dalam penyelidikan. Penggunaan simbol "^" di atas adalah statistik untuk rata-rata, varians, dan korelasi dalam bab ini menandakan bahwa jumlah ini dihitung untuk sampel bukan populasi.
Tujuan bab ini adalah untuk menggambarkan prosedur umum yang digunakan untuk mengestimasi uji reliabilitas skor. Data yang akan digunakan dalam mengestimasi koefisien reliabilitas dapat dikumpulkan oleh berbagai prosedur, dan setidaknya ada dua prosedur tentang bagaimana kita memilih satu metode yang paling tepat. Satu pandangan bahwa prosedur yang optimal menghasilkan estimasi korelasi yang akan diperoleh jika nilai bentuk tes paralel yang tersedia. Dengan demikian studi reliabilitas ini dirancang untuk meminimalkan efek dari pengukuran non-paralel dengan menggunakan ukuran yang hampir paralel. Sebuah titik pandang kedua (yang merupakan dasar untuk bab ini dan bab berikutnya pada teori generalisasi) adalah bahwa prosedur yang paling tepat ditentukan oleh tujuan penggunaan skor tes. Pengembang tes harus mengidentifikasi sumber-sumber kesalahan pengukuran yang paling akan merugikan interpretasi kegunaan skor dan desain studi reliabilitas yang memungkinkan kesalahan tersebut terjadi sehingga efek mereka dapat dinilai.




BAB II
PEMBAHASAN

PROSEDUR MENGESTIMASI RELIABILITAS
1.      Prosedur Administrasi yang Membutuhkan Dua Tes
a.      Metode Bentuk Alternatif (Alternate Form)
Anggaplah bahwa semua calon yang masuk ke pekerjaan kesehatan tertentu harus mengikuti ujian negara, yang dikelola dalam kondisi yang terkendali di sebuah situs particiear pada tanggal tertentu. Untuk mengurangi kemungkinan kecurangan, ujian di kursi yang berdekatan mengambil bentuk yang berbeda dari tes yang mencakup konten yang sama. Jelas ujian masing-masing memiliki hak untuk mengharapkan bahwa nilainya tidak akan sangat dipengaruhi oleh bentuk khusus dari tes yang diambil. Dalam hal ini, kesalahan pengukuran yang pengguna tes terutama perhatian adalah yang disebabkan oleh perbedaan dalam isi bentuk tes. Tentu saja kesalahan, administrasi dan penilaian, menebak, dan fluktuasi dalam kinerja peserta ujian sementara juga dapat berkontribusi dalam inkonsistensi nilai. Untuk mengatasi masalah ini, pengembang tes harus memperkirakan koefisien reliabilitas tes kemampuan dengan menggunakan metode bentuk lainnya (alternatif form).
Metode bentuk alternatif membutuhkan membangun dua bentuk serupa tes dan administrasi baik formulir untuk kelompok ujian yang sama. Bentuk harus diberikan dalam jangka waktu yang sangat singkat, sehingga waktu hanya cukup antara pencobaan sehingga peserta ujian tidak akan lelah. Hal ini dianggap diinginkan untuk menyeimbangkan urutan administrasi bentuk sehingga setengah peserta ujian secara acak ditugaskan untuk membentuk 1 diikuti oleh bentuk 2, sedangkan separuh lainnya mengambil formulir 2 diikuti oleh bentuk 1. Koefisien korelasi antara dua set nilai ini kemudian dihitung, biasanya dengan rumus product moment Pearson. Koefisien korelasi ini disebut koefisien kesetaraan. Semakin tinggi koefisien equivalen bahwa kekerasan, pengguna tes lebih percaya diri dapat bahwa nilai dari bentuk-bentuk tes yang berbeda dapat digunakan secara bergantian.
Setiap tes yang memiliki berbagai bentuk harus memiliki beberapa bukti kesetaraan mereka. Biasanya, tes prestasi dan bakat yang dibangun dengan berbagai bentuk sejak beberapa penggunaan klinis, pendidikan, atau penelitian memerlukan ujian untuk memiliki kesempatan untuk merebut kembali pemeriksaan, dan pengguna tes tidak ingin menggunakan item yang sama untuk tes kedua. Meskipun tidak ada, sulit aturan cepat untuk apa yang merupakan nilai minimal yang dapat diterima untuk estimasi reliabilitas bentuk alternatif, banyak prestasi manual standar laporan uji koefisien berkisar di 0,80 dan 0,90 untuk jenis reliabilitas. Selain itu, nilai-nilai berarti, deviasi standar, dan kesalahan standar pengukuran harus dilaporkan untuk setiap form, dan ini harus cukup mirip jika koefisien kesetaraan ditafsirkan sebagai estimasi reliabilitas.

b.      Metode Tes-Ulang (Test-Retest)
Ada banyak situasi pengujian yang satu bentuk dari tes ini adalah cukup tetapi pengguna uji tertarik pada bagaimana secara konsistensi peserta ujian merespon bentuk ini pada waktu yang berbeda. Dalam situasi ini kesalahan pengukuran perhatian utama adalah fluktuasi skor mengamati ujian di sekitar skor murni karena perubahan sementara di bagian ujian itu. Sekali lagi, namun. kesalahan karena administrasi, penilaian, menebak, kesalahan menjawab oleh peserta ujian, dan fluktuasi sementara lainnya dalam perilaku mungkin memiliki dampak pada skor diamati. Untuk memperkirakan dampak dari kesalahan tersebut pada reliabilitas skor tes, tes konstruktor mengelola tes untuk kelompok ujian, menunggu, pembacaan tes yang sama untuk kelompok yang sama, dan kemudian menghitung koefisien korelasi antara dua set nilai. Koefisien korelasi diperoleh dari prosedur tes ulang disebut koefisien stabilitas.
Penafsiran koefisien stabilitas sebagai estimasi reliabilitas menimbulkan beberapa pertanyaan menarik. Ketika koefisien rendah diperoleh, apakah ini menunjukkan bahwa tes tidak dapat diandalkan memberikan langkah-langkah sifat tersebut, atau apakah itu berarti bahwa sifat itu sendiri tidak stabil? Jika pengguna tes percaya bahwa jumlah sifat yang dimiliki peserta ujian harus berubah dari waktu ke waktu, asumsi dasar dari model klasik skor murni telah dilanggar dan koefisien korelasi yang diperoleh bukanlah estimasi yang tepat pada reliabilitas skor tes. Isu kedua adalah apakah perilaku suatu ujian adalah diubah oleh administrasi tes pertama sehingga skor tes kedua akan mencerminkan efek memori, praktek, belajar, kebosanan, sensitisasi, atau konsekuensi lain dari pengukuran pertama. Mengingat isu-isu itu mungkin masuk akal untuk mengasumsikan bahwa koefisien uji-tes ulang merupakan estimasi yang agak tidak akurat dari koefisien reliabilitas teoritis. Namun demikian, informasi tentang stabilitas skor tes sangat penting untuk menguji pengguna tes di banyak situasi pengujian praktis.
c.       Tes Ulang dengan Bentuk Alternatif (Test-Retest dengan Alternate Form)
Koefisien reliabilitas juga dapat diperkirakan dengan menggunakan kombinasi dari tes-tes ulang bentuk dan metode alternatif. Dalam hal ini, prosedur ini untuk mengatur bentuk 1 tes, tunggu, dan kemudian mengatur bentuk 2. Jika memungkinkan, diharapkan bahwa urutan administrasi bentuk dibalik untuk setengah kelompok. Koefisien korelasi antara dua set skor dikenal sebagai koefisien stabilitas dan kesetaraan. Koefisien ini dipengaruhi oleh kesalahan pengukuran karena sampling konten dalam bentuk pembangunan serta perubahan dalam pertunjukan individu 'dari waktu ke waktu dan hampir semua jenis lain dari kesalahan yang telah dijelaskan sebelumnya. Estimasi reliabilitas tersebut biasanya lebih rendah daripada koefisien kesetaraan atau koefisien stabilitas yang ditentukan untuk tes yang sama pada kelompok ujian yang sama.

2.      Membutuhkan Metode Administrasi Tes Tunggal
Ada situasi menguji banyak ketika bentuk tes tunggal akan diberikan hanya sekali untuk sekelompok ujian. Contoh yang paling umum adalah guru membuat tes kelas. Instruktur biasanya membuat sampai hanya satu bentuk dan mengelola untuk semua siswa. Selain itu, instruktur tidak akan selalu mengharapkan kinerja siswa harus konsisten pada tes ini dari waktu ke waktu karena siswa akan terus belajar (atau lupa) materi pada tingkat yang berbeda. Namun masih cukup tepat untuk tertarik pada sejauh mana varians skor diamati untuk ujian mencerminkan skor murni mereka varians pada tes ini pada saat ini. Seperti dalam situasi pengujian yang paling pemeriksa tidak terutama berkaitan dengan bagaimana peserta ujian skor pada item ini, biasanya pemeriksa ingin generalisasi dari item-item khusus untuk domain konten yang lebih besar dari item yang mungkin telah diminta. Salah satu cara untuk memperkirakan seberapa konsisten kinerja ujian pada tes ini dapat digeneralisasi ke domain item yang mungkin telah diminta adalah untuk menentukan bagaimana peserta ujian dilakukan secara konsisten di seluruh item atau himpunan bagian dari item pada bentuk tes tunggal. Prosedur yang dirancang untuk memperkirakan reliabilitas dalam keadaan ini disebut metode konsistensi internal. Semua prosedur estimasi konsistensi internal yang diperkenalkan dalam bab ini nilai-nilai hasil yang fungsi korelasi antara terpisah mencetak bagian-bagian dari tes. Bahkan, beberapa menghasilkan nilai-nilai prosedur yang fungsi korelasi antara terpisah mencetak belahan tes. Hal ini wajar untuk memikirkan korelasi antara himpunan bagian dari item seperti menyediakan beberapa informasi tentang sejauh mana mereka dibangun sesuai dengan spesifikasi yang sama. Jika kinerja ujian yang konsisten di seluruh himpunan bagian dari item dalam ujian, pemeriksa dapat memiliki keyakinan bahwa kinerja ini akan generalisasi ke item lain yang mungkin dalam domain isi. Dalam melakukan studi konsistensi internal, kita terutama khawatir tentang kesalahan yang disebabkan oleh sampling konten, meskipun kesalahan pengukuran karena kesalahan administrasi dan mencetak, menebak, dan fluktuasi sementara kinerja individu dalam sesi pengujian juga dapat mempengaruhi koefisien konsistensi internal.
Ketika melakukan ujian secara konsisten di seluruh item dalam tes, tes dikatakan memiliki homogenitas item. Dalam rangka untuk sekelompok item yang akan homogen, mereka harus mengukur kinerja jenis yang sama (atau mewakili konten domain yang sama). Item juga harus ditulis dengan baik dan bebas dari kekurangan teknis yang dapat menyebabkan peserta ujian untuk merespon pada beberapa dasar yang tidak terkait dengan konten. Ketika item pada tes tunggal yang diambil dari daerah yang beragam (misalnya, matematika, sejarah, dan sastra), ujian mungkin tidak akan melakukan secara konsisten di seluruh item-item dan koefisien konsistensi internal akan berkurang. Demikian pula, jika item tersebut datang dari daerah tunggal, misalnya, sejarah, tetapi beberapa item tes konsep utama dan yang lain berdasarkan poin kecil hanya disebutkan dalam catatan kaki dari teks, itu lagi kemungkinan bahwa konsistensi internal dari kinerja akan menjadi rendah. Akhirnya, bahkan jika semua item perwakilan yang adil dari domain konten, tapi ada pula yang. buruk ditulis sehingga ujian mungkin salah menafsirkan pertanyaan atau jawaban berdasarkan derajat mereka "wiseness tes" daripada pengetahuan mereka, ini lagi akan menurunkan konsistensi internal. Oleh karena itu, selalu tepat untuk menyelidiki konsistensi internal tes sejak koefisien konsistensi internal merupakan indeks dari kedua homogenitas item dan kualitas konten item.
Pada bagian berikut ini ada dua metode dalam mengestimasi koefisien reliabilitas untuk administrasi tes tunggal yang akan disajikan. Yang pertama, umumnya disebut sebagai metode “split-half”. Yang kedua, metode membutuhkan sebuah analisis struktur varian-kovarians dari jawaban item. Semua metode menghasilkan sebuah indeks dari konsistensi internal dari jawaban peserta ujian ke item dalam bentuk tes tunggal.


a.      Metode Split-Half (Formula Spearman Brown untuk belah dua)
Dengan menggunakan metode split-half, pengembang tes mengelola satu bentuk tes untuk kelompok ujian. Pengembang tes membagi item menjadi dua subyek, masing-masing setengah dari panjang tes asli. Jadi, jika tes 20 item yang diberikan, itu akan dibagi menjadi dua yaitu setiap tes 10 item masing-masing. Tujuannya adalah untuk menciptakan dua setengah-tes yang adalah sebagai hampir paralel mungkin. Empat metode populer untuk membagi tes menjadi dua bagian adalah untuk:
a)      Menetapkan semua item yang bernomor ganjil untuk membentuk 1 dan semua item genap untuk membentuk 2
b)      Peringkat urutan item dalam hal tingkat kesulitannya (p-nilai) berdasarkan respon dari peserta ujian; kemudian menetapkan item dengan ganjil peringkat untuk membentuk 1 dan mereka dengan peringkat genap untuk membentuk 2
c)      Menetapkan secara acak item ke dua setengah bentuk tes
d)     Menempatkan item untuk setengah-tes bentuk sehingga bentuk-bentuk yang "sesuai" dalam konten.
Formula Spearman Brown untuk belah dua merupakan sebuah formula komputasi yang sangat populer untuk estimasi reliabilitas tes yang dibelah menjadi dua bagian yang relatif paralel satu dengan yang lain. Formula ini dapat digunakan pada tes yang item-itemnya diberi skor dikotomi maupun non-dikotomi. Umumnya untuk memperoleh dua belahn tes yang relative paralel satu sama lain dalam penggunaan formula Spearman Brown, dilakukan cara pembelahan gasal-genap atau cara matched random subsets dikarenakan dari dua cara itulah diharapkan akan diperoleh belhan-belhan yang paralel seperti yang dikehndaki.

b.      Formula Rulon
Rulon (1939) merumuskan suatu formula untuk mengestimasi reliabilitas belah-dua tanpa perlu berasumsi bahwa kedua belahan mempunyai varians yang sama. Menurut Rulon, perbedaan subjek pada kedua belahan tes akan membentuk distribusi perbedaan skor dengan varians yang besarnya ditentukan oleh varians eror masing-masing belahan. Karena varians eror keseluruhan tes, maka varians eror tes ini dapat diestimasi lewat besarnya varians perbedaan skor diantara kedua belahan. Dengan demikian, dalam melakukan estimasi terhadap reliabilitas tes, varians perbedaan skor inilah yang perlu diperhitungkan sebagai sumber eror.
c.       Koefisien Alpha (α)
Telah dijelaskan dimuka bahwa formula Spearman Brown hanya akan menghasilkan estimasi reliabilitas yang cermat apabila belahan-belahan tes yang diperoleh dapat memenuhi asumsi paralel. Apabila kita tidak yakin bahwa asumsi tersebut tidak terpenuhi, maka koefisien-α (Cronbach, 1951) dapat digunakan. Walaupun dapat digunakan pada tes yang belahannya tidak paralel satu sama lain, akan tetapi apabila kedua belahan tersebut tidak memenuhi asumsi -equivalent, maka koefisien reliabilitas alpha yang diperoleh akan merupakan underestimasi terhadap reliabilitas yang sesungguhnya (artinya, reliabilitas yang sebenarnya mungkin sekali lebih tinggi daripada koefisien yang diperoleh dari hasil perhitungan). Oleh karena itu, bila kita memperoleh hasil perhitungan yang cukup tinggi kita akan tahu bahwa ada kemungkinan reliabilitas yang sesungguhnya lebih tinggi lagi akan tetapi bila koefisien yang diperoleh ternyata rendah, maka kita belum dapat memastikan apakah tes yang bersangkutan memang memiliki reliabilitas rendah ataukah hal tersebut sekedar indikasi tidak terpenuhinya asumsi -equivalent (Allen & Yen, 1979).

d.      Formula Kuder-Richardson
Bila suatu tes berisi item-item yang diberi skor dikotomi sedangkan jumlah itemnya sendiri tidak begitu banyak, kadang-kadang membagi tes menjadi dua bagian tidak dapat menghasilkan bagian yang setara sedangkan membagi tes menjadi lebih dari dua belahan akan mengakibatkan jumlah item dalam setiap belahan terlalu sedkit. Bila dalam belahan hanya berisi sedikit item, komputasi reliabilitasnya tidak dapat menghasilkan estimasi yang cermat. Salah satu cara yang dapat dilakukan adalah membelah tes tersebut menjadi sebanyak jumlah itemnya sehingga setiap belahan berisi hanya satu item saja. Kemudian estimasi reliabilitasnya dilakukan melalui formula alpha yang disesuaikan, yang dikenal dengan nama formula Kuder Richardson-20 atau KR-20 (Kuder-Richardson, 1937) dan dikenal pula dengan nama koefisien α-20 (Cronbach, 1951). Koefisien KR-20 atau koefisien α-20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Koefisien ini juga mencerminkan sejauhmana kesetraan isi item-item dalam tes.

e.       Estimasi reliabilitas dengan analisis varians
Selain melalui pendekatan-pendekatan korelasional, estimasi reliabilitas tes dalam prosedur single-trial administration dapat pula dilakukan melalui teknik analisis varians (anava). Hal ini sangat logis bila diingat bahwa konsepsi reliabilitas sendiri memang merupakan rasio dari berbagai varians distribusi. Salah satu teknik anava yang sangat populer adalah yang dikemukakan oleh Hoyt (1941). Pendekatan Hoyt ini termuat dalam jurnal Psychometrika yang sangat bergengsi dan sejak itu mendapat perhatian yang besra sekali dari para ahli psikometri.
Konsep dalam teknik analisis varians Hoyt adalah memandang distribusi item keseluruhan subjek sebagai data pada suatu desain eksperimen factorial dua-jalan tanpa replikasi, yang dikenal pula sebagai item by subject design. Setiap item dianggap seakan suatu treatment atau perlakuan yang berbeda sehingga setiap kali subjek dihadapkan pada suati item seakan-akan ia berada oada suatu perlakuan yang berbeda. Dalam hal ini banyaknya item merupakan banyaknya perlakuan. Dari pola faktorial ini diperoleh harga mean kuadrat antarsubjek yang sbenarnya merupakan estimasi terhadap varians skor tes, mean kuadratanatitem, dan men kuadrat interaksi itemsubjek yang merupakan estimasi terhadap barians eror.

f.       Metode Berdasarkan Kovarian Item
Kurangnya estimasi unik untuk konsistensi internal dari nilai tes dari sampel tunggal ujian pada satu kesempatan merupakan masalah yang mendapat banyak perhatian dalam literatur psikometri tahun 1930-an dan 1940-an. Kemudian dalam waktu yang relatif singkat tiga prosedur yang diusulkan diatasi masalah ini. Meskipun mereka tampak berbeda dalam bentuk, tiga prosedur yang dijelaskan di sini menghasilkan hasil yang identik. Tiga prosedur secara luas digunakan adalah Kuder Richardson 20, alpha Cronbach, dan analisis varians Hoyt itu. Mereka yang ingin membaca manual tes, tinjauan tes, atau literatur uji pengembangan lainnya harus mengakui kesetaraan metode ini untuk menghindari kebingungan. Kita akan menggunakan koefisien alpha istilah untuk merujuk ke kelas ini prosedur. KOEFISIEN ALPHA. Pada tahun 1951, Cronbach disajikan sebuah sintesis komprehensif dan diskusi dari berbagai metode untuk memperkirakan konsistensi internal dan berhubungan mereka ke rumus umum yang dikenal sebagai alpha Cronbach.


g.      Hubungan Alpha dengan Estimasi Split-Half
Dengan perkembangan antara tahun 1935 dan 1955 begitu banyak prosedur untuk mengestimasi reliabilitas tes dari administrasi tes tunggal, maka tidak mengherankan bahwa pengembang tes dalam periode ini agak bingung tentang metode yang digunakan untuk estimasi konsistensi internal atau bagaimana menafsirkan estimasi yang diperoleh (Coombs, 1950a). Khususnya, munculnya alpha dan prosedur memicu kontroversi tentang sifat yang sangat reliabilitas tes itu sendiri. Di satu sisi, teoretisi seperti Loevinger (1947) berpikir bahwa homogenitas item adalah properti tes penting tapi tetap sebuah konsep yang berbeda dari gagasan tradisional uji reliabilitas, didefinisikan sebagai korelasi antara dua bentuk paralel (atau bagian) dari tes. Kelley (1942) mempertanyakan apakah itu bahkan masuk akal untuk mempertimbangkan reliabilitas satu bentuk tes. Di sisi lain, Cureton (1958) dan lain-lain menunjukkan reliabilitas yang dapat benar didefinisikan sebagai rasio varians skor benar untuk varians skor diamati; menurut definisi ini, tampaknya cukup tepat untuk mempertimbangkan reliabilitas suatu bentuk tes tunggal. Secara historis, titik pandang kedua, dibantu oleh Cronbach (1951), yang menjelaskan hubungan antara koefisien alpha dan membagi-setengah prosedur estimasi. Diskusinya berisi poin-poin berikut pada interpretasi yang sesuai koefisien alpha.
1.      Koefisien alpha dapat digunakan sebagai indeks konsistensi internal. Ini adalah "karakteristik dari tes dimiliki oleh kebajikan intercorrelations positif dari item menulis itu" (Kuder dan Richardson, 1937). Dalam menafsirkan koefisien alpha, pengguna tes harus ingat bahwa estimasi ini menyiratkan apa-apa tentang stabil dasarkan dari nilai tes dari waktu ke waktu atau kesetaraan mereka untuk nilai pada salah satu bentuk alternatif tertentu dari tes.
2.      Koefisien alpha dapat dianggap sebagai batas bawah ke reliabil teoritis dasarkan koefisien, yang dikenal sebagai koefisien presisi. Jadi, itu bukan estimasi langsung dari koefisien reliabilitas melainkan estimasi batas bawah koefisien itu. Jika kita mendapatkan nilai koefisien alpha 0,75, adalah mustahil untuk mengetahui apakah koefisien presisi sebenarnya lebih tinggi dari ini, atau seberapa jauh lebih tinggi mungkin.
3.      Alpha adalah mean dari semua split-half koefisien mungkin yang dihitung dengan menggunakan metode Rulon. Dengan kata lain, jika koefisien reliabilitas diperkirakan secara acak membagi tes menjadi dua bagian dan koefisien komputasi Rulon itu, alpha adalah nilai yang diharapkan dari estimasi tersebut.
4.      Salah satu tafsir umum dari koefisien alpha adalah bahwa nilai yang relatif tinggi untuk alpha menunjukkan bahwa item yang diuji tidak berdimensi (yaitu, bahwa kinerja pada item ini dapat dijelaskan dalam hal faktor yang mendasari tunggal). Karena alpha adalah fungsi dari kovarian item, dan kovarians tinggi antara item dapat hasil dari lebih dari satu faktor umum, alpha tidak boleh ditafsirkan sebagai ukuran unidimensionality tes itu. Sebagai contoh, skor untuk item pada: est dalam studi sosial dapat ditentukan baik oleh kemampuan menulis ujian 'dan dengan pengetahuan mereka tentang konten. Sehingga tes tidak akan dianggap tidak berdimensi (mengukur hanya satu sifat), tetapi karena semua skor item yang dipengaruhi oleh dua kemampuan, tes dapat memiliki nilai koefisien alpha yang tinggi. Alpha dapat diartikan, karena itu, sebagai batas bawah proporsi varians dalam skor tes dijelaskan oleh faktor-faktor umum yang mendasari kinerja item. McDonald (1981) menyajikan pembahasan yang lebih baru dari masalah ini, mengutip beberapa contoh dan bukti yang berhubungan dengan titik ini.
Akhirnya, harus dicatat bahwa koefisien alpha umumnya berlaku untuk situasi di mana reliabilitas komposit diperkirakan. Ini bisa, misalnya, diterapkan untuk memperkirakan reliabilitas total skor berdasarkan jumlah skor subtes beberapa. Dalam penggunaan yang paling umum dari alpha, setiap item diambil sebagai subtes, tapi kita bisa mempertimbangkan kasus khusus di mana skor total adalah gabungan dari nilai pada dua tes setengah-(seperti yang dibuat dalam studi reliabilitas split-half). Dalam kasus khusus ini, dengan hanya dua komponen, koefisien dilambangkan sebagai α2 dan identik dengan estimasi reliabilitas yang diperoleh oleh metode Rulon atau metode Guttman itu. Perhatikan bahwa hasil yang diperoleh dengan menggunakan α2 tergantung pada komposisi dari dua tes setengah-tertentu, dan dengan demikian nilainya belum tentu sama dengan nilai koefisien alpha diperoleh jika setiap item diperlakukan sebagai komponen terpisah dari komposit skor tes total.

3.      INTER-RATER RELIABILITAS
Inter-rater reliabilitas diperkirakan dengan pelaksanaan tes sekali tetapi memiliki respon dinilai oleh pemeriksa yang berbeda. Dengan membandingkan nilai yang diberikan oleh pemeriksa yang berbeda, kita dapat menentukan pengaruh dari perbedaan penilai atau skornya. Inter-rater reliabilitas penting untuk memeriksa ketika pemberian skor melibatkan penilaian yang cukup subjektif.

4.      FAKTOR-FAKTOR YANG MEMPENGARUHI KOEFISIEN RELIABILITAS
a)      Kelompok Homogenitas
Hal ini jelas bahwa besarnya koefisien reliabilitas tergantung pada variasi antara individu di kedua skor murni mereka dan skor kesalahan. Dengan demikian, homogenitas dari kelompok ujian adalah suatu pertimbangan penting dalam pengembangan tes dan seleksi tes. Misalkan bahwa tes telah dikembangkan untuk mengukur kecemasan matematika. Jika tes ini diberikan kepada sekelompok siswa di kelas matematika kehormatan elektif, para siswa mungkin akan melaporkan tingkat rendah mirip kecemasan matematika. Akibatnya varians antara skor murni ini ujian 'akan rendah, dan demikian juga koefisien reliabilitas. Jika ini tes yang sama diberikan kepada sekelompok ukuran yang sama terdiri dari penampang dari semua siswa SMA, skor murni akan ia lebih cenderung bervariasi. Dengan asumsi bahwa varians kesalahan acak akan konstan untuk dua kelompok ukuran yang sama, koefisien reliabilitas harus lebih tinggi untuk kelompok kedua sejak varians skor  murni mereka harus account untuk persentase yang jauh lebih besar dari varians skor diamati. Tabel 7.5 menyajikan contoh hipotetis situasi ini, yang menggambarkan bahwa tes adalah tidak "dapat diandalkan" atau "tidak dapat diandalkan." Sebaliknya, reliabilitas adalah properti dari skor pada tes untuk kelompok tertentu ujian. Dengan demikian, pengguna tes potensial perlu untuk menentukan apakah reliabilitas estimasi dilaporkan dalam uji manual didasarkan pada sampel yang sama dalam komposisi dan variabilitas kepada kelompok untuk siapa tes akan digunakan. Jika sampel uji penerbit adalah lebih heterogen pada sifat yang diukur, penurunan uji reliabilitas akan menghasilkan ketika tes digunakan pada sampel yang lebih homogen. Sisipan perlu dicatat bahwa ketika tes adalah terlalu keras atau terlalu mudah bagi sekelompok peserta ujian, pembatasan rentang skor dan, akibatnya, varians skor  murni adalah mungkin hasilnya.
Gulliksen (1950) disajikan ringkasan sejarah psikometri diskusi tentang hubungan antara heterogenitas kelompok dan dampaknya pada uji reliabilitas. Magnusson (1967, hal 75) lebih lanjut yang ditawarkan rumus berikut untuk memprediksi bagaimana reliabilitas berubah ketika varians sampel diubah.
Ketergantungan reliabilitas klasik di varians skor benar juga menyiratkan koefisien reliabilitas yang, sebagaimana didefinisikan sejauh ini, memiliki kegunaan terbatas dalam menilai kualitas informasi yang diberikan oleh tes yang digunakan untuk penyaringan atau seleksi. Dalam kasus ini pemeriksa biasanya hanya peduli dengan apakah peserta ujian skor di atas atau di bawah skor cutoff tertentu. Besaran varians skor benar dan diamati (rasio mereka) memiliki relevansi kurang untuk proses pengukuran. Reliabilitas untuk tes yang digunakan dalam cara ini dibahas pada Bab 9.

b)     Batas Waktu
Ketika tes memiliki batas waktu yang kaku sehingga beberapa menyelesaikan ujian tetapi yang lainnya tidak, menilai sebuah ujian yang bekerja sistematis akan mempengaruhi kinerja nya pada semua bentuk tes berulang-ulang. Dengan demikian, perbedaan dalam tingkat di mana peserta ujian bekerja menjadi bagian dari varians skor benar. Pada beberapa tes (misalnya, tes bakat atau tes matematika ulama perhitungan untuk orang dewasa) tujuan tes itu konstruktor mungkin untuk menilai kemampuan untuk melakukan tugas-tugas dengan cepat. Pada jenis lain dari tes, bagaimanapun, tingkat respon mungkin tidak relevan dengan sifat yang diukur. Pada kedua jenis tes, batas waktu harus cukup panjang untuk memungkinkan semua, atau hampir semua, ujian untuk menyelesaikan. Jika tidak, estimasi reliabilitas mungkin artifisial meningkat karena konsistensi dalam kinerja yang disebabkan oleh batas waktu tes, ketika pemeriksa terutama tertarik pada tingkat konsistensi dalam kinerja tes yang mungkin telah diamati memiliki semua ujian selesai tes. Diskusi yang lebih rinci speededness pengujian dan identifikasi tes dipercepat disajikan dalam Tuhan dan Novick (1968).
Inflasi buatan dari estimasi reliabilitas akan paling serius untuk tes dipercepat jika aneh bahkan perpecahan-setengah prosedur yang digunakan. Jelas sekali ujian yang kehabisan waktu, kinerja pada semua item yang tersisa aneh dan bahkan bernomor terselesaikan akan benar-benar konsisten, terlepas dari apakah item yang homogen dalam konten. Lain pendekatan konsistensi internal juga akan menghasilkan estimasi reliabilitas digelembungkan untuk alasan yang sama ketika tes ini sangat dipercepat. Jadi mungkin paling tepat untuk menggunakan tes-tes ulang atau metode bentuk yang ekuivalen untuk memperkirakan reliabilitas dari tes dipercepat. Sebuah variasi dari metode bentuk yang ekuivalen adalah dengan membagi item tes menjadi dua setengah tes terpisah dan mengelola setiap setengah-uji secara terpisah dengan batas waktu sendiri. Reliabilitas uji penuh-panjang ini kemudian diperkirakan dengan menggunakan Spearman Brown atau prosedur Guttman. Namun demikian, tidak peduli metode apa yang digunakan, estimasi reliabilitas dari tes dipercepat harus diinterpretasikan dengan hati-hati setiap kali tugas pada tes membutuhkan lebih dari kemampuan untuk melakukan tugas-tugas sederhana pada kecepatan tinggi.

c)      Panjang Tes
Salah satu aspek dari tes yang mempengaruhi baik varians skor murni dan varians skor diamati adalah panjang tes. Hal ini terlihat jika kita mempertimbangkan situasi di mana pemeriksa dapat menggunakan tes yang terdiri dari hanya 1 item atau tes yang terdiri dari 10 item (semua didasarkan pada konten yang sama).
Ketika panjang tes ditingkatkan, nilai k akan selalu lebih besar dari 1, ketika panjang tes menjadi menurun, nilai k akan kurang dari 1. Perlu dicatat bahwa kenaikan uji reliabilitas diperoleh dari panjang tes meningkat mengikuti hukum hasil yang menurun. Artinya, dua kali lipat panjang tes dengan reliabilitas 0,60 akan meningkatkan reliabilitas untuk 75; tiga kali lipat panjang tes akan meningkatkan reliabilitas untuk 0,81, tetapi meningkatkan panjang tes untuk lima kali panjang aslinya hanya akan menghasilkan dalam koefisien reliabilitas 0,88. Dengan demikian, di beberapa titik, kenaikan kecil di reliabilitas diperoleh dengan menambahkan lebih banyak item mungkin tidak akan membenarkan peningkatan penulisan item dan pengujian waktu. Selanjutnya, proyeksi Spearman Brown adalah refleksi akurat dari reliabilitas hanya jika item ditambahkan atau dihapus adalah paralel dalam konten dan kesulitan untuk item pada tes asli.

5.      ESTIMASI SKOR MURNI
Meskipun nilai dari skor murni yang diberikan kepada peserta ujian tidak pernah dapat tepat ditentukan, estimasi dapat diperoleh dari persamaan regresi untuk memprediksi secara umum. Karena skor murni di estimasi dapat dengan mudah dihitung, pengguna tes sesekali dapat mendukung penggunaan mereka, dengan alasan bahwa estimasi skor murni harus menghasilkan keputusan yang lebih tepat tentang ujian. Hal ini belum tentu demikian. Sebagai aturan umum tidak ada keuntungan dalam memperkirakan skor murni untuk satu kelompok peserta ujian yang akan dibandingkan berdasarkan norma-direferensikan. Seorang instruktur yang baik menghitung skor mentah dan skor murni di estimasi untuk siswa akan menemukan bahwa cara dari dua distribusi adalah sama, dan lebih jauh lagi, semua peserta ujian akan mencetak dalam urutan peringkat yang sama pada dua distribusi. Hanya standar deviasi dari dua distribusi akan berbeda (dengan standar deviasi dari nilai yang benar yang lebih kecil).
Dalam situasi di mana peserta ujian dialokasikan untuk penempatan yang berbeda berdasarkan pada apakah mereka jatuh di atas atau di bawah skor cutoff mutlak, penggunaan skor murni diperkirakan dapat memiliki konsekuensi penting yang harus diperiksa secara menyeluruh sebelum kebijakan seperti diadopsi. Pertimbangkan kasus di mana peserta ujian harus ditempatkan ke dalam perbaikan atau program khusus berdasarkan hasil tes. Siswa yang mendapat skor di bawah 80 akan ditempatkan di kelas untuk pendidikan keterbelakangan mental; mereka yang skor di atas 130 akan ditempatkan di kelas untuk anak berbakat. Misalkan bahwa Joseph mencetak 79 poin pada skala kecerdasan dan Karen mencetak 132. Menggunakan skor baku, baik anak-anak akan memenuhi syarat sebagai mahasiswa luar biasa dan akan memenuhi syarat untuk layanan khusus. Menggunakan estimasi skor murni, namun, di mana 100 adalah kelompok rata-rata, dan nilai Pxx, adalah 0,90, estimasi skor murni.
Jadi, ujian tidak akan memenuhi syarat untuk program khusus. Sebaliknya, pertimbangkan bagaimana hasilnya akan berubah jika bukan mean total kelompok, hanya rata-rata subkelompok siswa di kelas pendidikan keterbelakangan mental digunakan. Jika skor rata-rata untuk kelompok ini adalah 65, skor benar Joseph diperkirakan akan = .90 (79 - 65) + 65 = 77,6 dan atas dasar estimasi skor murni, Joseph akan diklasifikasikan sebagai terbelakang mental. Contoh ini menggambarkan pentingnya identifikasi kelompok norma yang sesuai jika estimasi skor murni akan digunakan untuk pengambilan keputusan tentang individu.
Sebagai aturan umum, adalah lebih baik untuk menggunakan total kelompok berarti bukan berarti subkelompok, yang didasarkan pada sampel yang relatif kecil dan karenanya mungkin tidak stabil. Hal ini jelas praktek dipertanyakan untuk membuat subkelompok berdasarkan skor tes dan kemudian menggunakan cara subkelompok untuk estimasi nilai yang benar pada tes atau tes serupa (seperti yang diilustrasikan pada contoh sebelumnya). Penggunaan sarana subkelompok untuk estimasi nilai yang benar adalah yang paling mungkin dibenarkan ketika subkelompok dibentuk berdasarkan variabel demografis atau instruksional alam yang tidak terkait untuk menguji. Sebagai contoh, dalam memperkirakan nilai sebenarnya dari hitam, putih, dan siswa Hispanik, kita mungkin ingin menggunakan subkelompok ras berarti bukan berarti total kelompok.
Meskipun dalam kebanyakan situasi estimasi nilai yang benar adalah tidak perlu, kita harus menyebutkan secara singkat bahwa ada beberapa jenis penelitian atau evaluasi mana mungkin menguntungkan. Suatu masalah yang muncul dalam beberapa studi adalah perbandingan persamaan regresi untuk dua atau lebih kelompok yang memiliki skor rata-rata tidak sama pada prediksi. Masalah ini dapat terjadi dalam penggunaan analisis kovarians non-setara desain kelompok kontrol (Campbell dan Stanley, 1963) dan dalam studi bias item. Penggunaan nilai yang diamati dapat membuat perbedaan kelompok dalam persamaan regresi yang tidak akan muncul jika skor murni yang tersedia. Hunter dan Cohen (1974) telah menunjukkan bahwa penggunaan skor murni diperkirakan dapat mengatasi masalah ini dalam regresi linear dan mengurangi hal itu dalam analisis regresi nonlinear.

6.      SELISIH SKOR RELIABILITAS
Ada beberapa kesempatan dalam diagnosis penelitian, evaluasi, dan klinis ketika dua tes diberikan, namun variabel yang menarik adalah perbedaan antara nilai tes. Dua contoh umum adalah:
a.       Evaluator ingin menentukan keuntungan dalam kinerja untuk setiap ujian dari waktu ke waktu, dengan menggunakan tes yang sama.
b.      Seorang dokter, mengidentifikasi ketidakmampuan belajar, tertarik pada perbedaan antara kinerja ujian pada dua tes yang berbeda atau subyek (misalnya, bahasa pengolahan dan nilai produksi bahasa subtes).

7.      MENGGUNAKAN ESTIMASI ERROR DALAM INTERPRETASI SKOR
Estimasi reliabilitas mungkin berguna untuk membandingkan dua atau lebih tes, namun dalam menafsirkan skor suatu ujian individu, indeks kesalahan yang diharapkan dalam skor tes akan lebih berguna. Setidaknya ada tiga jenis kesalahan, awalnya diidentifikasi oleh Kelley (1927), telah dianggap relevan dengan interpretasi skor tes yang diuji ini:
a.       Perbedaan antara skor murni dan skor yang diamati peserta ujian untuk pengujian tertentu
b.      Perbedaan antara skor yang diamati diuji pada satu tes dan skor prediksi pada bentuk paralel tertentu pada tes.
c.       Perbedaan antara skor murni dan prediksi skor murni peserta ujian.
Jika pengguna tes prihatin tentang jenis kesalahan pertama, estimasi standar kesalahan pengukuran harus digunakan. Seperti tercantum dalam Bab 6, standar kesalahan pengukuran dapat dipandang sebagai standar deviasi dari perbedaan antara skor murni diuji dan skor yang diamati melalui jumlah tak terbatas pengujian berulang.
Ada saat-saat dalam interpretasi skor tes dengan siswa, orangtua, atau konseli ketika diskusi skor murni ujian teoritis mungkin tidak praktis. Dalam hal ini kedua jenis kesalahan, standar kesalahan estimasi, harus digunakan. Standar kesalahan estimasi untuk prediksi skor suatu ujian yang di formulir 2 dari skor yang dikenal pada formulir 1 adalah = Erx, V1 - Ai, xi. Sangat menarik untuk dicatat bahwa interval yang dihasilkan dengan menggunakan standar tersebut. Hal ini logis, namun, jika kita mengingat bahwa kesalahan pengukuran pada kedua tes 1 dan tes 2 akan mempengaruhi interval kepercayaan kedua. Jenis ketiga dari standar kesalahan, berdasarkan pada perbedaan antara nilai aktual dan prediksi skor murni, jarang digunakan dalam penafsiran skor praktis dan dengan demikian tidak akan dibahas di sini. Gulliksen (1950, hal 43) menyajikan formula dan derivasi untuk standar kesalahan pengukuran. Kami mencatat bahwa kepercayaan hanya interval berdasarkan statistik ini diperkirakan sekitar skor murni ujian, daripada skor diamati, dan lebih kecil dari interval kepercayaan yang didasarkan pada dua jenis standar kesalahan.

PENGAYAAN
1.      Mengevaluasi Koefisien Reliabilitas
Pertanyaan penting lain ketika mempertimbangkan koefisien reliabilitas adalah “seberapa besar seharusnya koefisien reliabilitas?” mengingat, kita mengatakan uji koefisien reliabilitas dapat diartikan sebagai tafsiran proporsi varian skor tes yang di akibatkan oleh varian skor murni. Idealnya koefisien reliabilitas adalah 1.0 sebab hal ini mengindikasikan bahwa 100 % dari skor tes varian adalah mutlak karena perbedaan antara individu. Akan tetapi, karena kesalahan pengukuran, reliabilitas yang sempurna tidak dapat dicapai. Koefisien reliabilitas dipengaruhi oleh beberapa faktor yaitu Konstruk yang di ukur, jumlah waktu yang tersedia untuk testing, cara pemberian skor, dan metode estimasi reliabilitas. 
a.       Konstruk. Beberapa konstruk lebih sulit untuk diukur dari pada konstruk lain karena daerah pokok lebih sulit untuk menyampel secara memadai. Kebiasaan pada umumnya, variabel-variabel personal lebih sulit untuk di ukur dari pada pengetahuan akademik. Akibatnya, level reliabilitas yang diterima untuk mengukur “ketergantungan” dianggap ditolak untuk mengukur komprehensi/pemahaman membaca. Dalam mengevaluasi penerimaan suatu koefisien reliabilitas harus mempertimbangkan sifat dari variabel penelitian dan bagaimana kesulitan dalam mengukurnya. Dengan meninjau dan membandingkan estimasi reliabilitas dari instrument-instrumen yang tersedia untuk mengukur suatu konstruk, dapat ditentukan mana ukuran konstruk yang paling dipercaya.
b.      Waktu yang tersedia untuk testing. Jika waktu yang tersedia untuk testing terbatas, jumlah item yang bisa diatur terbatas pula dan sampling dari domain tes membuka peluang bagi terjadinya error yang lebih besar. Ini dapat terjadi dalam sebuah proyek penelitian yang kepala sekolahnya mengijinkan anda untuk melakukan study disekolahnya tetapi waktu yang diperkenankan untuk mengukur semua variabel dalam penelitian anda hanya 20 menit. Contoh lain, penyaringan untuk masalah membaca yang dihadapi siswa dimana waktu yang diberikan tiap siswa hanya 15 menit. Sedangkan seorang psikolog mungkin butuh waktu 2 jam untuk tes kecerdasan individual yang terstandarisasi. Adalah tidak mungkin diharapkan level reliabilitas yang sama dari perbedaan signifikan proses pengukuran yang berbeda. Namun demikian, membandingkan koefisien reliabilitas yang terkait dengan instrumen yang dapat diatur dalam parameter situasi testing bisa membantu seseorang memilih instrumen  yang terbaik untuk situasi ini.
c.       Penggunaan skor tes. Cara penggunaan skor tes merupakan pertimbangan pokok lainnya ketika mengevaluasi kecukupan koefisien reliabilitas. Tes diagnostik yang membentuk dasar untuk keputusan-keputusan utama tentang individu harus dilakukan dengan standar yang lebih tinggi dari pada tes yang digunakan pada penelitian kelompok atau untuk penyaringan sejumlah besar individu. Contoh, diberikan tes kecerdasan individual yang digunakan dalam diagnosis keterbelakangan mental akan diharapkan untuk menghasilkan skor level reliabilitas yang sangat tinggi. Dalam konteks ini, kinerja pada tes kecerdasan memberikan informasi kritis yang digunakan untuk menentukan apakah seseorang memenuhi kriteria diagnostik. Sebaliknya, tes yang digunakan untuk menyaring semua siswa di sekolah dalam masalah membaca, diadakan untuk standar yang kurang ketat. Dalam keadaan ini, instrumen yang digunakan hanya untuk tujuan penyaringan dan tidak ada keputusan yang dibuat. Hal ini mengingatkan walaupun reliabilitas tinggi yang diinginkan dalam semua penilaian, standar yang dapat diterima bervariasi dengan cara tes skor yang bisa digunakan. Keputusan yang tinggi menuntut reliabilitas yang tinggi.
d.      Metode estimasi reliabilitas. Ukuran koefisien reliabilitas juga berhubungan dengan cara memilih pada estimasi reliabilitas. Beberapa metode cenderung menghasilkan estimasi yang tinggi dari pada metode lain. Sebagai akibatnya, ini sangat penting untuk mempertimbangkan metode yang akan digunakan untuk menghasilkan korelasi koefisien ketika mengevaluasi dan membandingkan reliabilitas tes-tes yang berbeda. Contoh, KR-20 dan koefisien tipe alpha biasanya menghasilkan reliabilitas estimasi lebih kecil dari pada yang diperoleh dengan menggunakan metode split-half (bagi dua). dalam tabel 4.5, reliabilitas bentuk alternatif yang pelaksanaannya ditunda/tertunda memiliki banyak sumber eror dari pada metode lain yang dan biasanya menghasilkan koefisien reliabilitas yang rendah. Ringkasnya, beberapa metode estimasi reliabilitas lebih tepat dan cenderung menghasilkan koefisien yang lebih besar, dan variabel ini seharusnya menjadi pertimbangan ketika mengevaluasi koefisien reliabilitas.

Pedoman Umum. Meskipun sudah jelas bahwa banyak faktor pertimbangan yang pantas ketika mengevaluasi koefisien reliabilitas, kita akan tetap menyediakan / memberikan beberapa pedoman umum.
1.      Jika sebuah tes digunakan dalam mengambil keputusan penting yang berdampak secara  signifikan terhadap seseorang, koefisien reliabilitasnya 0.90 atau 0.95. Jika sebuah tes digunakan dalam mengambil keputusan penting yang memungkinkan pengaruh signifikan terhadap seseorang dan tidak mudah sebaliknya, itu layak untuk mengira koefisien reliabilitasnya 0.90 atau 0.95. Level ini secara teratur bisa diperoleh dalam tes kecerdasan individual. Contoh, reliabilitas skala kecerdasan orang-orang dewasa wechsler- edisi ketiga (wechsler, 1997), hasil tes kecerdasan individual diperoleh 0.98.
2.      Estimasi reliabilitas 0.80 atau lebih, dapat diterima dalam situasi tes apapun  dan biasanya pada laporan-laporan dari tes prestasi dan kepribadian menunjukkan hal ini.
Contoh, The California Achievement Test/5 (CAT/5) (CTB/Macmillan/McGraw-Hill, 1993), sebuah kumpulan grup pengaturan tes prestasi yang sering digunakan dalam sekolah umum, koefisien reliabilitasnya melebihi 0.80 untuk sebagian besar sub tes.
3.      Tes kelas yang dibuat oleh guru dan tes yang digunakan untuk penyaringan, reliabilitas estimasi sekurang-kurangnya 0.70. Tes dalam kelas sering dikombinasikan untuk membentuk gabungan dari hasil tes untuk menentukan nilai akhir, dan reliabilitas gabungan tersebut diharapkan menjadi lebih besar dari pada reliabilitas tes individu. Koefisien sebesar 0.70an juga dapat diterima ketika  prosedur pendugaan yang diteliti tersedia berkaitan dengan kasus-kasus individual.
Menurut beberapa penulis koefisien reliabilitas 0.60 masih bisa diterima untuk penelitian grup, penilaian, dan pengukuran proyektif, tapi kami tidak menyarankan penggunaan penilaian-penilaian yang menghasilkan skor estimasi reliabilitasnya dibawah 0.70. untuk diingat kembali, koefisien reliabilitas 0.60 mengindikasikan bahwa 40 % dari varian yang di observasi dapat merupakan  random erorr. Seberapa besar kepercayaan anda terhadap hasil sebuah penilaian ketika anda tahu bahwa 40% dari varian merupakan random error?
Petunjuk terdahulu dalam koefisien reliabilitas dan besarnya keputusan kualitatif juga menjadi pertimbangan dalam konteks ini. Beberapa konstruk  lebih sulit diukur secara reliabel dari pada yang lain. Dari sudut pandang/perspektif pembangunan atau perkembangan, kita tahu bahwa munculnya ketrampilan - ketrampilan atau sikap dalam diri anak lebih sulit di ukur dari pada orang dewasa atau perkembangan ketrampilannya. Ketika suatu konstruk sulit di ukur, beberapa koefisien reliabilitas lebih besar dari 0.50 mungkin baik diterima karena masih terdapat lebih banyak lagi varian skor murni yang berkaitan dengan error varian. Namun demikian, sebelum memilih untuk mengukur dengan koefisien reliabilitas dibawah 0.70, pastikan memang tidak ada instrumen pengukuran yang lebih baik yang tersedia.

2.      Bagaimana Meningkatkan Reliabilitas
Pertanyaan pokok pada poin ini adalah “apa yang bisa kita lakukan untuk meningkatkan reliabilitas hasil penilaian kita?” pada intinya kita bertanya langkah-langkah apa yang dapat di ambil untuk memaksimalkan skor varian murni dan meminimalkan varian error, bisa jadi pendekatan yang paling umum untuk meningkatkan reliabilitas pengukuran adalah dengan menambah jumlah item tes. Dalam konteks tes individu, Jika penambahan jumlah item tes dilakukan sambil tetap menjaga kesamaan kualitas dengan item aslinya, maka kita bisa meningkatkan  reliabilitas tes. Konsep ini telah diperkenalkan sebelumnya pada saat membahas tentang reliabilitas belah dua dan presentasi Formula Spearman-Brown. Pada kenyataannya, fariasi Formula Spearman-Brown dapat digunakan untuk memprediksi efek penambahan item tes terhadap  reliabilitas tes:

 
Dimana:

                        :  Estimasi reliabilitas dalam tes dengan item baru
            n          :  Faktor yang menunjukkan penambahan item tes
                        :  Reliabilitas  tes awal (sebelumnya)

Untuk contoh, digunakan 25 bentuk soal tes matematika. Jika reliabilitas tesnya ada 0.80 dan kita mengestimasi untuk meningkatkan reliabilitas kita dengan cara menambah 30 bentuk tes  rumusnya menjadi:
       r  = 1,2   x   0,80     =    0,96  = 0,83
                                       1+(1,2-1)0,80         1,16
Tabel menyediakan contoh-contoh lain yang menggambarkan akibat dari penambahan item tes terhadap reliabilitas. Pada baris pertama dari tabel tersebut terlihat bahwa penambahan jumlah item tes pada tes yang reliabilitasnya 0.50 dengan factor 1.25 menghasilkan reliabilitas prediksi sebesar 0.56. Menambah jumlah item dengan faktor 2.0 (i.e., menggandakan jumlah item tes) meningkatkan reliabilitas menjadi 0.67. Dalam situasi tertentu beberapa faktor akan membatasi jumlah item yang bisa dimasukkan dalam sebuah tes. Contoh, guru pada umumnya mengembangkan tes yang diselenggarakan dalam interval waktu tertentu, biasanya waktu yang di alokasikan untuk jam pelajaran tertentu.
Dalam situasi tersebut, reliabilitas dapat ditingkatkan dengan menggunakan beberapa pengukuran yang dikombinasikan untuk memperoleh skor rata-rata atau skor gabungan. Sebagaimana yang telah dikemukakan sebelumnya, mengkombinasikan beberapa tes multipel dalam sebuah komposit linear akan meningkatkan reliabilitas pengukuran komponen tes. Singkatnya, apapun yang kita lakukan untuk memperoleh sampel yang memadai akan meningkatkan reliabilitas pengukuran kita.
Sebelum diskusi tentang prosedur-prosedur secara detail, harus dicatat bahwa pilihan atau pengembangan bentuk yang bagus merupakan hal penting dalam tahap pengembangan tes yang baik. Memilih dan mengembangkan bentuk tes yang baik akan mempertinggi karakteristik pengukuran dari penilaian yang anda gunakan.

3.      Masalah-Masalah Spesifik dalam Mengestimasi Reliabilitas
a.      Reliabilitas Tes Kecepatan. Sebuah tes kecepatan umumnya terdiri dari item-item yang relatif mudah namun dengan waktu yang terbatas sehingga tidak memungkinkan bagi setiap peserta tes untuk dapat menjawab dengan benar seluruh pertanyaan. Akibatnya, skor peserta tes pada tes kecepatan pada dasarnya merefleksikan kecepatan performans. Pada saat mengestimasi reliabilitas dari hasil tes kecepatan, estimasi yang diturunkan dari sebuah tes tunggal adalah tidak tepat. Karena itu,  tes ulang atau reliabilitas bentuk paralel dalam tes kecepatan adalah tepat, sedangkan tes belah dua, koefisien alpha, dan KR 20 harus dihindarkan.
b.      Reliabilitas sebagai fungsi level skor. Meski merupakan sesuatu yang sangat diharapkan, namun sebuah tes tidaklah selalu dapat mengukur dengan tingkat ketelitian yang sama dalam keseluruhan range skor. Jika suatu kelompok individu diberikan tes yang terlalu mudah atau terlalu sulit bagi mereka, sangat mungkin terjadi kita akan memiliki tambahan eror dalam skor. Akurasi yang rendah terjadi pada distribusi yang ekstrim di mana skor tes yang diperoleh menunjukan hasil yang semua benar atau semua salah. Dalam situasi seperti ini, adalah tidak cermat jika kita kemudian mengambil kesimpulan bahwa siswa yang gagal menjawab dengan benar semua pertanyaan yang diberikan pada tes intelektual adalah siswa yang tidak memiliki kecerdasan intelektual. Karena bisa saja yang terjadi adalah tes yang digunakan ternyata tidak cukup memadai untuk memberikan penilaian atas “kecakapan tingkat rendah” (low-level skill) yang diperlukan untuk mengukur kecerdasan intelektual anak. Hal ini berhubungan dengan kedaaan dimana tes tidak memiliki “lantai” (batas bawah) yang memadai. Sebaliknya, adalah juga tidak cermat jika membuat laporan bahwa siswa yang mampu menjawab dengan benar semua pertanyaan pada tes intelektual adalah siswa yang memiliki kecerdasan luar biasa. Bisa saja terjadi bahwa tesnya benar-benar terlalu mudah untuk sebuah pengukuran yang memadai, berkaitan dengan situasi dimana tes tidak memiliki “plafon” (batas atas) yang cukup. Jadi, untuk kedua kasus ini kita membutuhkan tes yang lebih cocok. Pada umumnya, tes bakat dan tes prestasi dirancang untuk digunakan pada individu dengan level kemampuan tertentu. Ketika sebuah tes digunakan pada individu, baik dengan hasil yang ekstrim maupun di luar itu, skornya mungkin tidak akan seakurat estimasi reliabilitas yang ditunjukkan. Dalam situasi seperti ini, studi lebih lanjut tentang reliabilitas dari skor ditunjukan pada level ini.
c.       Pembatasan rentangan (range). Nilai yang kita peroleh ketika menghitung koefisien reliabilitas tergantung pada karakteristik sampel atau kelompok individu yang menjadi basis analisis. Salah satu karakteristik sampel yang berpengaruh signifikan (penting) terhadap koefisien reliabilitas adalah “tingkat/derajat variasi yang ditunjukan” (varian). Lebih tepatnya, koefisien reliabilitas yang didasarkan pada sampel dengan varian yang besar (mengacu pada heterogenitas sampel) umumnya akan menghasilkan estimasi reliabilitas yang lebih tinggi daripada koefisien reliabilitas yang berbasis pada sampel dengan varian yang lebih kecil (berhubungan dengan homogenitas sampel). Ketika koefisien reliabilitas didasarkan pada sampel dengan range (rentangan) variabilitas yang dibatasi, koefisien mungkin sebenarnya lebih rendah dari estimasi reliabilitas pengukuran. Sebagai contoh, jika anda mendasarkan analisis reliabilitas pada siswa di kelas anak-anak berbakat di mana praktis semua skor menunjukan hasil yang patut dicontoh (misalnya >90% benar), anda akan mendapatkan estimasi reliabilitas yang lebih rendah ketimbang analisis yang sama yang dilakukan pada kelas dengan distribusi skor yang lebih luas dan mendekati normal.
d.      Tes Penguasaan (Mastery Testing).
Tes yang mengacu pada criteria tertentu (criterion-referenced test) digunakan untuk membuat interpretasi relatif  terhadap level performance tertentu. Contoh dari tes ini adalah tes penguasaan untuk mengevaluasi performance dalam arti lebih sebagai pencapaian suatu skor yang dipotong daripada sekedar mengukur tingkat pencapaian. Perhatian dari tes ini lebih kepada klasifikasi. Setiap peserta, baik yang memiliki skor yang sama dengan skor yang dipotong maupun yang memiliki skor di atasnya, diklasifikasikan sebagai telah menguasai skill atau domain. Sebaliknya, mereka yang memiliki skor di bawah skor yang dipotong diklasifikasikan sebagai belum menguasai. Tes penguasaan sering menghasilkan variabilitas terbatas antar peserta tes juga antar hasil tes dengan koefisien reliabilitas yang kecil. Akibatnya, estimasi reliabilitas yang didiskusikan pada bab ini tidak cukup untuk menilai reliabilitas skor tes penguasaan. Dengan penekanan pada klasifikasi tersebut, pendekatan yang direkomendasikan adalah dengan menggunakan indeks yang merefleksikan konsistensi klasifikasi (AERA, dkk, 1999).

4.      Standar Kesalahan Pengukuran
Koefisien reliabilitas diinterpretasikan dalam bentuk proporsi dari variansi pengamatan yang terkait dengan variansi kebenaran dan cara yang bermanfaat untuk membandingkan skor realibitas yang dihasilkan dari prosedur penilaian yang berbeda. Hal lain dijadikan sama, kamu akan meyeleksi tes yang menghasilkan skor dengan reliabilitas yang terbaik. Akan tetapi, segera setelah tes itu diseleksi dan fokusnya pada menafsirkan skor, standar kesalahan Pengukuran (SEM) adalah suatu cara statistik yang lebih praktis. SEM adalah  standar deviasi dari distribusi skor yang diperoleh dari seseorang jika dites dalam jumlah yang tak terbatas, dan dari bentuk test paralel yang terdiri dari item-item yang secara random dijadikan sampling dari kandungan/isi domain yang sama. Dengan kata lain jika kita mengkreasikan jumlah yang tidak terbatas dari bentuk paralel sebuah test dan  memiliki orang yang sama tanpa efek2 yang dibawa, kehadiran dari kesalahan pengukuran mencegah seseorang dalam memperoleh skor yang sama setiap waktu. Meskipun setiap tes kemungkinannya memiliki kandungan domain yang sama, pengambil tes akan tampil lebih baik pada beberapa tes dan lebih buruk pada tes lainnya, hal ini disebabkan karena  kesalahan random. Pengambilan skor yang diperoleh  pada semua tes akan menghasilkan distribusi skor. Pengertian dari distribusi tersebut di atas adalah skor individual sebenarnya (T) dan SEM adalah deviasi standar dari distribusi skor yang eror. Jelasnya, kita tidak akan mudah untuk mengikuti prosedur-prosedur ini dan harus mengestimasi SEM menggunakan informasi yang tersedia untuk kita.
a.      Mengevaluasi Standar Kesalahan Pengukuran
SEM adalah fungsi dari reliabilitas (rxx) dan standar deviasi (SD) dari tes. Ketika mengkalkulasi SEM, koefisien reliabilitas mempertimbangkan pengukuran eror yang terdapat dalam skor tes, dan standar deviasi merefleksikan reliabilitas dari skor-skor dalam sebuah distribusi.

b.      Menghitung Interval Kepercayaan.
Interval kepercayaan mencerminkan kisaran skor dimana mengandung skor individual yang benar dengan probabilitas yang ditentukan (AERA, dkk,1999). Kita menggunakan SEM untuk mengkalkulasi interval kepercayaan. Ketika memperkenalkan SEM, kita mengatakan SEM menyediakan informasi tentang distribusi dari skor yang diamati disekitar skor yang benar. Lebih tepatnya, kita mendefenisikan SEM sebagai deviasi standar dari distribusi skor-skor yang eror. Seperti deviasi standar lainnya SEM dapat diinterpretasikan ke dalam bentuk frekuensi-frekuensi yang dipresentasikan dalam bentuk distribusi normal.
Pada bab sebelumnya kita tunjukan bahwa kira-kira 68% dari skor dalam distribusi normal terletak diantara satu deviasi standar dibawah rata-rata (mean) dan satu deviasi standar diatas rata (mean). Hasilnya kira-kira 68% dari waktu skor individual yang diamati diharapkan menjadi ± 1 SEM dari skor yang benar. Contohnya, jika seorang memiliki skor yang benar yaitu 70 dalam sebuah test dengan SEM 3 kemudian kita mengharapkan orang itu memperoleh skor diantara 67 dan 73, (skor yang diperoleh ±1 SEM) 68% dari waktu. Jadi kita dapat berharap skornya diantara 64,12 dan 75,88 dengan interval kepercayaan 95% (diperoleh skor ± 1,96 SEM).
Hal ini menjadi catatan akan hubungan antara reliabilitas dari skor tes, SEM, dan interval kepercayaan. Ingat, kita mencatat bahwa skor reliabilitas bertambah, SEMnya berkurang. Hubungan yang sama terjadi antara  reliabilitas tes dan interval kepercayaan. Bila reliabilitas skor tes bertambah (menunjukkan kurangnya kesalahan pengukuran), interval kepercayaan menjadi lebih kecil. (menunjukkan ketelitian dalam pengukuran).
Keuntungan dari SEM dan penggunaan interval kepercayaan adalah bahwa mereka menyajikan dan mengingatkan kita bahwa kesalahan pengukuran ada dalam semua skor dan kita seharusnya menginterpretasikan skor dengan hati-hati. Suatu skor tunggal sering diinterpresatikan jika itu tepat dan tidak terkait dengan eror. Contoh, jika Susie memiliki skala IQ 113, orangtuanya mungkin menyatakan secara tidak langsung IQnya Susie persis 113. Jika kita menggunakan tes IQ tingkat tinggi seperti Wechsler Intelligence Scale for Children- edisi IV atau Reynolds Intellectual Assessment Scales, kemungkinan diperoleh estimasi yang bagus dari IQnya tersebut. Akan tetapi, instrument penilaian yang baik diperoleh skor yang mengandung beberapa tingkat kesalahan dan SEM, dan interval kepercayaan membantu kita mengilustrasikan itu. Informasi ini dapat dilaporkan dengan cara yang berbeda dalam laporan-laporan tertulis. Contohnya, Kaufman dan Lichtenberger (1999) merekomendasikan format berikut ini: Susie memperoleh skala IQ 113 (antara 108 dan 118 dengan kepercayaan 95%). Kamphaus (2001) merekomendasikan format yang sedikit berbeda: Susie memperoleh skala IQ  diatas rata-rata, dengan 95% kemungkinan  IQnya turun antara 108 dan 118.
Terlepas dari format tepat yang digunakan, cakupan interval kepercayaan menyoroti fakta bahwa skor tes mengandung beberapa derajat kesalahan pengukuran dan harus diinterpretasikan dengan hati-hati. Kebanyakan tes profesional yang dipublikasikan baik skor-skor yang dilaporkan dimana pengambil skor tes kemungkinan surut atau memberikan informasi dalam menghitung interval kepercayaan ini.

BAB III
KESIMPULAN

Reliabilitas mengacu pada konsistensi skor tes. Jika tes atau prosedur penilaian lainnya menghasilkan pengukuran yang konsisten, skornya dapat dipercaya. Mengapa reliabilitas begitu penting? Sebagaimana yang telah kita tekankan, penilaian berguna karena memberikan informasi yang membantu pendidik membuat keputusan yang lebih baik. Namun, reliabilitas (dan validitas) merupakan informasi pokok yang penting.
Bagi kita untuk membuat keputusan yang baik, kita perlu informasi yang dapat dipercaya. Dengan mengestimasi reliabilitas hasil penilaian, kita mendapatkan indikasi seberapa banyak kepercayaan kita dapat ditempatkan di dalamnya. Jika kita memiliki informasi yang sangat reliabel dan valid, kemungkinan besar kita dapat menggunakan informasi tersebut untuk membuat keputusan yang lebih baik. Jika hasil tidak reliabel, informasinya merupakan nilai yang kecil bagi kita.
Kesalahan pengukuran mengurangi reliabilitas pengukuran dan karena itu mengurangi kegunaan pengukuran. Meskipun ada beberapa sumber kesalahan pengukuran, yang utama adalah pengambilan sampel konten dan kesalahan waktu sampling. Kesalahan sampling konten mengurangi kesempurnaan sampling dari domain konten.
Tes yang lebih representatif dari domain konten, mengurangi kesalahan dalam sampling konten yang mengancam reliabilitas tes. Kesalahan waktu sampling merupakan hasil dari perubahan acak pengambil tes atau lingkungan dari waktu ke waktu. Para ahli dalam pengujian dan pengukuran telah mengembangkan metode estimasi kesalahan ini dan sumber lainnya, termasuk pendekatan utama untuk mengestimasi reliabilitas
Meskipun koefisien reliabilitas berguna ketika membandingkan reliabilitas dari tes yang berbeda, standar error pengukuran (SEM) lebih berguna ketika menginterpretasikan skor. SEM adalah suatu indeks jumlah kesalahan dalam skor tes dan digunakan dalam menghitung interval kepercayaan di mana kita dapat menentukan nilai nilai yang benar. Suatu keuntungan dari SEM dan penggunaan interval keyakinan bahwa SEM mengingatkan kita bahwa kesalahan pengukuran hadir dalam semua skor dan kita harus berhati-hati ketika menginterpretasikan skor.




DAFTAR PUSTAKA

Azwar. S. (2007). Reliabilitas dan validitas. Yogyakarta: Pustaka Pelajar

Linda C and James A. (1986). Introduction to Classical and Modern Test Theory. United State of America
Share this article :
 
Comments
0 Comments
Silahkan Tinggalkan Komentar Anda :

Posting Komentar

 
Support : Creating Website | Johny Template | Mas Template
Copyright © 2011. Muhamad Hamdi - All Rights Reserved
Template Created by Creating Website Published by Mas Template
Proudly powered by Blogger