Docstoc

tes nilai

Document Sample
tes nilai Powered By Docstoc
					Abstract
Validity of a test is its most important characteristic. A test is valid to the degree that it accurately measures some
characteristics. There are three basic types of validity: content validity, which is most important for the classroom
teacher’s achievement test, describes the adequacy of the test to sample the domains of a subject as stressed in
classroom instruction. Criterion-related validity describes the relationship between test scores and independent
external criterion measures. Construct validity is the degree to which test scores can be accounted for by certain
explanatory actions that support a psychological theory.
Reliability of test result is a universal criterion of educational measurement. Higher reliability measures are
obtained as chance errors associated with the complete process of testing are reduced. Coefficients of reliability are
the best statistical data available to the teacher who is striving to determine the degree of success in testing and
who is making efforts to improve future tests. One major aspect of test reliability is the degree to which a test
measures with consistency.

Kata Kunci: validitas, reliabilitas

A. PENDAHULUAN
Evaluasi pendidikan melibatkan banyak kegiatan teknis dalam menentukan metode dan format penilaian yang
dapat digunakan untuk mendapatkan informasi yang dibutuhkan. Informasi tersebut diperlukan dalam menafsir dan
menetapkan keputusan untuk kepentingan pendidikan. Penilai membutuhkan keterampilan dalam mengidentifikasi
dan memahami berbagai macam perspektif penilaian, baik penilaian kontekstual dan proses maupun penilaian
hasil. Karena penilaian merupakan pusat kontrol keberhasilan program pendidikan, maka terdapat dua syarat utama
yang harus dipenuhi oleh suatu instrumen penilaian, yaitu validitas dan reliabilitas.

Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan kesesuaian skor tes. Validitas merupakan
karakteristik suatu tes ketika diujikan pada suatu kelompok peserta tes. Validasi suatu instrumen mencakup
pengumpulan data empiris dan argumentasi logis untuk menunjukkan bahwa kesimpulan tertentu adalah tepat.
Sedangkan reliabilitas yang berarti konsistensi adalah ciri umum dari suatu instrumen pengukuran dan penilaian
pendidikan. Konsistensi tinggi skor instrumen dari suatu pengukuran ke pengukuran berikutnya merupakan ciri
terpenting dari instrumen yang berkualitas tinggi.

Tulisan ini adalah sebuah kajian teoretis tentang apa dan bagaimana validitas dan reliabilitas itu apabila dikaitkan
dengan kualitas instrumen dan penerapannya dalam penilaian hasil suatu program pembelajaran. Selanjutnya,
tulisan ini diharapkan untuk mengundang wacana bagi pembaca tentang: Bagaimana instrumen penilaian yang
berkualitas? Bagaimana meningkatkan validitas dan reliabilitas suatu instrumen penilaian? Faktor-faktor apa yang
mempengaruhi validitas dan reliabilitas suatu instrumen penilaian?


B. DESKRIPSI KONSEP
1. Konsep Validitas
Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan oleh penyusun atau
pengguna instrumen untuk mengumpulkan data secara empiris guna mendukung kesimpulan yang dihasilkan oleh
skor instrumen. Sedangkan validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.

Untuk menjadi valid suatu instrumen tidak hanya konsisten dalam penggunaannya, namun yang terpenting adalah
harus mampu mengukur sasaran ukurnya. Hal ini berarti bahwa validitas merupakan ciri instrumen yang
terpenting. Berbagai usaha dilakukan untuk meningkatkan validitas instrumen, baik langsung ataupun tidak
berhubungan dengan peningkatan validitas instrumen itu sendiri. Untuk menjadi valid maka suatu instrumen harus
dikonstruksi dengan baik dan mencakup materi yang benar-benar mewakili sasaran ukurnya. Validitas instrumen
bersifat relatif terhadap situasi tertentu dan tergantung pada kondisi tertentu. Instrumen yang mempunyai validitas
tinggi terhadap tujuan atau kegunaan tertentu mungkin akan mempunyai validitas sedang atau mungkin rendah
terhadap tujuan lainnya.

Menurut Messik (1989) terdapat lima aspek yang berbeda dalam konsep validitas. Kelima aspek tersebut secara
bersama-sama berfungsi sebagai ukuran validitas umum atau standar untuk semua pengukuran psikologis dan
pendidikan. Kelima aspek tersebut adalah: (1) Substansi. Aspek substansi validitas mencakup verifikasi proses
utama dalam pengungkapan tugas penilaian. Hal ini dapat dikenali melalui penggunaan teori substansi dan
pemodelan proses. Ketika menentukan substansi instrumen, seseorang perlu mempertimbangkan dua hal pokok:
Pertama, tugas penilaian harus mewakili materi yang akan dinilai. Kedua, penilaian harus ditetapkan berdasarkan
fakta-fakta empiris. (2) Strukrur pensekoran. Strukrur pensekoran harus secara rasional konsisten dengan apa yang
diketahui tentang sifat hubungan struktural dari keberadaan konstruk yang dipersoalkan. Struktur internal penilaian
harus konsisten dengan apa yang diketahui tentang struktur internal dari domain konstruk. (3) Ketergeneralisasian.
Ketergene-ralisasian penilaian harus memenuhi keterwakilan isi dan konstruk. Hal ini memungkinkan penafsiran
skor untuk penggeneralisasian secara luas dalam konstruk yang ditetapkan. Fakta seperti kemampuan generalisasi
tersebut tergantung pada tingkat korelasi suatu tugas dengan tugas lainnya yang juga mewakili konstruk atau
aspek-aspek konstruk. (4) Faktor-faktor eksternal. Aspek eksternal dari validitas mengacu pada tingkat hubungan
skor assessment dengan ukuran lain dan perilaku nonassessment yang mencerminkan tinggi, rendah, dan hubungan
interaksi antara konstruk yang ditetapkan. (5) Akibat dari validitas. Akibat validitas meliputi bukti dan dasar
pemikiran dalam mengevaluasi konsekuensi penafsiran dan menggunakan skor yang tidak diharapkan dan yang
diharapkan. Penyelidikan jenis ini terutama penting ketika berhubungan dengan akibat yang merugikan bagi
individu dan kelompok yang dihubungkan dengan penyimpangan dalam penskoran dan penafsiran.

Ke lima aspek validitas tersebut berlaku bagi semua pengukuran psikologis dan pendidikan; umumnya penafsiran
berbasis skor dan kesimpulan tindakan mengasumsikannya secara tegas atau secara tersembunyi. Tantangan dalam
validasi instrumen selanjutnya adalah menghubungkan kesimpulan ini terhadap fakta-fakta terpusat yang
mendukungnya seperti halnya terhadap fakta-fakta berbeda yang merupakan bagian kesimpulan tandingan yang
rasional.

2. Konsep Reliabilitas
Reliabilitas telah didefinisikan dengan cara yang berbeda oleh pengarang yang berbeda. Cara yang terbaik untuk
membahas reliabilitas adalah sejauhmana hasil pengukuran dari suatu instrumen mewakili karakteristik yang
diukur. Sebagai contoh, reliabilitas didefinisikan seberapa besar konsistensi skor tes yang dicapai peserta tes pada
pengujian ulang. Definisi ini akan memuaskan jika skor tes dapat menggambarkan kemampuan peserta tes; jika
tidak maka skor tes tidak sistematis, tidak dapat diulangi atau tidak terikat. Reliabilitas juga diartikan sebagai
indikator ketidakhadiran kesalahan acak. Jika kesalahan acak dapat diperkecil maka skor tes akan lebih konsisten
dari suatu pengujian ke pengujian berikutnya.

Definisi teoretis dari reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragaman sistematis
dalam populasi peserta tes. Jika terdapat keragaman sistematis yang lebih besar dalam suatu populasi dibanding
dengan populasi lainnya, seperti dalam semua siswa sekolah negeri dibandingkan hanya dengan kelas tertentu, tes
akan mempunyai reliabilitas lebih besar untuk populasi yang lebih bervariasi. Reliabilitas adalah karakteristik
bersama antara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari suatu kelompok dengan kelompok
lainnya.

Para profesional pengukuran menganggap reliabilitas sebagai persyaratan utama suatu instrumen penilaian. Dalam
teori tes diakui bahwa skor tes akan valid (benar) jika skor tes tersebut reliabel (Mehrens & Lehmann, 1991).
Asumsi ini didasarkan pada suatu model matematika teori tes dimana skor perolehan terdiri atas skor tulen dan
skor galat (obtained score = true score + error score). Semakin sedikit kesalahan dalam suatu tes (yaitu semakin
reliabel) semakin valid skor tes. Karenanya, suatu penilaian yang tidak reliabel secara otomatis tidak valid.

Penekanan utama dalam mengumpulkan data untuk menentukan reliabilitas tes adalah pada konsistensi
dihubungkan dengan reliabilitas skor atau reliabilitas penilai. Reliabilitas skor berarti bahwa jika suatu tes telah
diadministrasikan pada penempuh ujian untuk kedua kalinya, maka penempuh ujian akan tetap memperoleh skor
yang sama dengan pengadministrasian yang pertama. Salah satu cara para spesialis pengukuran dalam menentukan
reliabilitas skor tes adalah melalui tes standar. Jika penempuh ujian diuji kembali, mereka harus melengkapi tugas
yang sama persis dalam kondisi yang juga persis sama. Hal ini akan membantu dalam pencapaian hasil tes yang
konsisten.


C. PEMBAHASAN
1. Validitas
a. Jenis-jenis Validitas dan Ukurannya
Crocker dan Algina (1986) membedakan tiga jenis validitas, yaitu: 1) validitas isi, mengkaji kepadanan sampel
yang terdapat dalam suatu instrumen; 2) validitas konstruk, mengkaji sifat-sifat psikologis yang menjelaskan
keragaman skor responden dalam instrumen tertentu; 3) dan validitas relasi kriteria, membandingkan skor
responden dengan satu atau lebih variabel eksternal.

Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan validitas kriteria. Hal Ini berari
bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat dalam validitas isi dan validitas relasi
kriteria (Anastasi, 1997). Validitas konstruk menghubungkan gagasan dan praktek pengukuran di satu pihak,
dengan gagasan teoretik di pihak lain. Para penyusunan instrumen biasanya bertolak dengan bekal suatu konstruk,
kemudian mengembangkan instrumen untuk mengukur konstruk tersebut. Selanjutnya, butir-butir instrumen yang
telah dikembambangkan diujicobakan secara empiris.

Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir instrumen dengan tujuan ukurnya.
Kedua jenis validitas tersebut dapat ditentukan melalui pengkajian secara teoretis dan secara empiris, yang
mencakup: (1) menjelaskan pokok bahasan dan sub pokok bahasan; (2) menetapkan pokok bahasan dan subpokok
bahasan yang diukur oleh setiap butir instrumen; (3) mencocokkan butir-butir instrumen dengan pokok bahasan
dan subpokok bahasan yang diukurnya. Secara teoretis validitas isi dan validitas konstruk dapat dikaji melalui
penilaian panelis. Penilaian panelis dimaksudkan untuk menilai kesesuaian setiap butir instrumen dengan pokok
bahasan dan subpokok bahasan yang diukurnya. Prosedur yang digunakan adalah meminta para panelis untuk
mencermati butir-butir instrumen. Kemudian menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan
subpokok bahasan yang diukurnya.

Suatu contoh penilaian validitas isi dan validitas konstruk secara teoretis dapat dilakukan melalui penilaian panelis
(pakar). Pengembangan prosedur penilaian panelis dapat dilakukan melalui beberapa langkah, yaitu: Pertama,
menetapkan skala yang digunakan, yaitu: 1 = tidak relevan, 2 = kurang relevan, 3 = cukup relevan, 4 = relevan, dan
5 = sangat relevan. Kedua, menetapkan kriteria penilaian yang mencakup: (1) mengukur indikatornya; (2) hanya
memiliki satu arti; (3) jelas dan mudah dipahami; (4) tidak bersifat faktual; dan (5) tidak tumpang tindih dengan
butir-butir lainnya. Ketiga, menetapkan pilihan, yaitu: 1 (tidak relevan) jika hanya satu atau semua kriteria tidak
terpenuhi; 2 (kurang relevan) jika hanya dua kriteria yang terpenuhi; 3 (cukup relevan) jika hanya tiga kriteria yang
terpenuhi; 4 (relevan) jika hanya empat kriteria yang terpenuhi; dan 5 (sangat relevan) jika semua kriteria
terpenuhi. Keempat, kualitas masing-masing butir instrumen didasarkan atas rerata hasil penilaian panelis, dengan
kriteria sebagai berikut:

Rerata Penilaian Keputusan

1,0 – 2,9 Tidak sesuai Direvisi
3,0 – 3,9 Cukup sesuai Diterima dengan revisi
4,0 – 5,0 SesuaiDiterima

Penilaian validitas isi dan validitas konstruk secara empiris dilakukan dengan ujicoba instrumen kepada responden
yang sesuai dengan karakteristik responden tempat pemberlakuan instrumen final. Penetapan jumlah sampel dapat
diacuh dari pendapat Nunnaly (1970) bahwa untuk mengurangi resiko kehilangan butir-butir instrumen dan agar
memungkinkan untuk mengeliminasi faktor-faktor yang tidak dikehendaki maka dalam analisis instrumen
direkomendasikan untuk digunakan sampel 5–10 kali jumlah butir instrumen.

Ujicoba secara empiris dimaksudkan untuk menganalisis validitas isi dan validitas konstruk instrumen secara
empiris. Validitas isi biasanya digunakan untuk menyebut validitas instrumen tes, sedangkan validitas konstruk
biasanya digunakan untuk menyebut validitas instrumen non tes. Secara empiris, kedua jenis validitas tersebut
dianalisis dengan cara yang berbeda.

Validitas isi. Secara empiris alat analisis validitas isi yang biasa digunakan (khusus untuk tes pilihan ganda) adalah
Item and Test Analysis (ITEMAN). Alat analisis ini dimaksudkan untuk mendapatkan informasi tentang: indeks
kesukaran butir tes, indeks daya beda butir, dan keberfungsian pengecoh. Disamping itu, juga untuk menentukan:
korelasi biserial titik (point biserial correlation), dan keseimbangan isi atau keterwakilan materi yang hendak
diukur. Secara empiris kelima informasi tersebut dibutuhkan karena saling berhubungan antara satu dengan yang
lainnya, dimana keberfungsian pilihan dapat meningkatkan indeks kesukaran butir tes, indeks kesukaran butir tes
dapat menentukan daya beda butir, dan indeks kesukaran dan daya beda butir dapat mempengaruhi interkorelasi
butir, dan secara keseluruhan kelima informasi tersebut merupakan penentu tingkat reliabilitas tes. Untuk jelasnya
prosedur analisis butir dan penetapan kriteria untuk menerima, menolak atau merevisi butir-butir tes, secara
berturut-turut sebagai berikut:
(1) Indeks kesukaran butir (p). Indeks kesukaran butir tes adalah proporsi peserta yang menjawab benar butir tes.
Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling baik pada 0,5; karena p=0,5 dapat memberikan
kontribusi optimal terhadap korelasi biserial titik, daya pembeda butir, dan reliabilitas tes. Butir-butir tes yang
memiliki indeks kesukaran di bawah atau di atas kriteria 0,3 - 0,7 dapat digunakan apabila ada pertimbangan
keterwakilan pokok bahasan yang diukurnya.

(2) Daya pembeda butir (D). Daya pembeda butir adalah kemampuan butir tes untuk membedakan siswa mampu
dan kurang mampu. Indeks daya beda butir mempunyai rentang nilai –1 ke +1, namun nilai negatif dan rendah
menunjukkan kinerja butir yang rendah. Suatu butir tes dapat dipertahankan apabila memiliki nilai D ³ 2,0. Indeks
daya beda butir dihitung dengan menggunakan rumus: D= pu - pi; dimana: pu = proporsi kelompok atas yang
menjawab benar, pi = proporsi kelompok bawah yang menjawab benar. Pembagian kelompok responden
didasarkan atas pendapat Kelly (1939) yang dikutip oleh Crocker dan Algina (1996) bahwa indeks daya beda butir
yang lebih stabil dan sensitif dapat dicapai dengan menggunakan 27 persen kelompok atas dan 27 persen kelompok
bawah.

(3) Korelasi biserial titik (rpbi). Korelasi biserial titik adalah korelasi antara skor butir tes dengan skor total.
Korelasi biserial titik dapat disamakan dengan daya beda butir, namun rpbi itu sendiri perlu dihitung karena dapat
menyediakan refleksi yang sebenarnya dari kontribusi setiap butir tes terhadap keberfungsian tes. Semakin tinggi
rpbi suatu butir tes semakin tinggi kontribusinya dalam memprediksi kriteria. Suatu butir tes dapat dipertahankan
apabila memiliki rpbi ³ 0,30.

(4) Keberfungsian pengecoh. Suatu pengecoh dapat dipertahankan apabila memenuhi syarat-syarat: (1) kunci
jawaban (keyed answer) harus dipilih lebih banyak oleh kelompok atas daripada kelompok bawah; (2) setiap
penggagal (foils) harus dipilih minimal 2 persen dari keseluruhan peserta tes dan dipilih minimal 5 persen
kelompok bawah, (3) Indeks daya beda kunci jawaban harus positif dan indeks daya beda penggagal harus negatif.

Validitas konstruk. Sama halnya dengan prosedur ujicoba instrumen tes, instrumen non tes juga diujicobakan
secara empiris kepada sejumlah responden (5-10 kali jumlah butir instrumen). Data hasil ujicoba secara empiris
dari instrumen non tes biasanya dianalisis dengan menggunakan Analisis Faktor Konfirmasi (Confirmatory Factor
Analysis) dengan menggunakan metode ekstraksi komponen utama (principle component extraction). Analisis
tersebut bertujuan untuk menguji kebenaran konstruk teori yang dijadikan acuan dalam pengembangan instrumen,
dengan cara menentukan struktur atau model faktor dari sejumlah butir instrumen berdasarkan muatan faktor
(factor loading) jumlah varians (eigenvalue), dan proporsi varians (communality). Dalam analisis ini juga
digunakan rotasi ortogonal dan varimax. Beberapa kriteria yang dijadikan acuan dalam analisis faktor adalah:
(1) Ukuran kecukupan pensampelan (sampling adequacy). Ditentukan dengan menggunakan rumus Kaiser-Meyer-
Olkin (KMO), yaitu dengan membandingkan nilai koefisien korelasi observasi dengan koefisien korelasi parsial
(Norusis, 1996). Jika koefisien korelasi parsial kecil maka nilai KMO besar (mendekati satu) berarti dapat
digunakan analisis faktor, sebaliknya jika nilai koefisien korelasi parsial besar maka nilai KMO kecil (mendekati
nol) berarti tidak dapat digunakan analisis faktor. Jelasnya penafsiran nilai KMO diacuh dari ciri yang
dikemukakan oleh Kaiser (1974) seperti dikutip oleh Norusis (1996) bahwa KMO 0,90 baik sekali (marvelous);
0,80 baik (meritorius); 0,70 sedang (middling); 0,60 kurang (mediocre); 0,50 sangat kurang (miserable); dan
dibawah 0,50 tidak dapat diterima (unacceptable).

(2) Uji Bartlett tentang bentuk matriks korelasi (Bartlett’s test of sphericity). Uji ini dimaksudkan untuk
memastikan apakah matriks korelasi berasal dari matriks identitas atau bukan. Dalam uji ini digunakan pendekatan
Chisquare dan dibutuhkan data yang berasal dari populasi normal multivariat. Dengan ketentuan bahwa bila
matriks korelasi merupakan matriks identitas (makriks dengan diagonal 1 dan selain diagonal 0) maka tidak dapat
digunakan analisis faktor, sebaliknya bila matriks korelasi bukan matriks identitas maka dapat digunakan analisis
faktor.

(3) Banyaknya faktor. Banyaknya faktor ditetapkan berdasarkan aturan yang dikemukakan oleh Norusis (1996)
bahwa jumlah faktor harus diekstraksi sama dengan jumlah faktor yang mempunyai varians (eigenvalue) lebih
besar dari 1,0.

(4) Muatan faktor (factor loading). Muatan faktor diseleksi setelah melalui ekstraksi komponen utama (extracting
principal component) dengan rotasi ortogonal untuk memaksimalkan varians (variance maximizing/ varimax)
antara variabel utama. Muatan faktor yang tetap dipertahankan adalah di atas 0,3. Hal ini sesuai dengan aturan
yang dikemukakan oleh Crocker dan Algina (1996) bahwa muatan faktor yang lebih dari 0,3 cenderung siginifikan,
sebaliknya muatan faktor yang kurang dari 0,3 tidak dapat memberikan kontribusi yang siginifikan terhadap suatu
faktor tertentu.

b. Penyebab invaliditas
Ancaman utama terhadap validitas instrumen adalah: (1) ketakterwakilan konstruk; menunjukkan bahwa tugas
yang diukur dalam penilaian tidak mencakup dimensi penting dari konstruk. Oleh karena itu, hasil tes tersebut
tidak mungkin untuk mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang hendak diukur oleh
instrumen; (2) penyimpangan keragaman konstruk berarti bahwa instrumen tersebut mengukur terlalu banyak
variabel, dan kebanyakan variabel tersebut tidak relevan terhadap isi konstruk. Jenis penyimpangan validitas
seperti ini mencakup dua bentuk, yaitu penyimpangan kemudahan konstruk (Construct irrelevant easiness) dan
penyimpangan kesukaran konstruk (Construct irrelevant difficulty). Penyimpangan kemudahan konstruk terjadi
ketika faktor-faktor luar seperti kata-kata kunci atau bentuk instrumen memungkinkan seseorang untuk menjawab
benar dengan cara yang tidak sesuai dengan konstruk yang diukur, dan penyimpangan kesukaran konstruk terjadi
bila aspek-aspek luar dari tugas membuat tingkat kesukaran tugas tidak sejalan terhadap sebagian atau keseluruhan
anggota kelompok. Sementara bila terjadi penyimpangan keragaman konstruk yang pertama menyebabkan
seseorang memperoleh skor yang lebih tinggi dibanding dengan kemampuan yang sebenarnya, dan terjadinya
penyimpangan keragaman konstruk yang kedua menyebabkan seseorang memperoleh skor yang lebih rendah
dibanding dengan kemampuan yang sebenarnya.

2. Reliabilitas
a. Ukuran Reliabilitas
Terdapat beberapa statistik yang digunakan untuk menghitung stabilitas skor seperangkat tes dari suatu kelompok
peserta tes, yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas konsistensi internal.
Reliabilitas test-retest. Suatu koefisien reliabilitas test-retest diperoleh dengan mengadministrasikan tes yang sama
dua kali dan mengkorelasikan skor tes tersebut. Dalam konsep, hal ini merupakan ukuran konsistensi skor yang
sempurna sebab memungkinkan pengukuran konsistensi langsung dari suatu ujian ke ujian berikutnya. Namun,
koefisien ini tidaklah direkomendasikan dalam praktek, oleh karena masalah dan keterbatasannya, yaitu
memerlukan dua kali pengadministrasian tes yang sama dalam kelompok yang sama dan memerlukan pemilihan
waktu yang tepat. Jika interval waktunya singkat, mungkin skor siswa akan sangat konsisten sebab mereka masih
mengingat sebagian atau seluruh pertanyaan dan jawaban mereka. Dan jika intervalnya lama, maka hasilnya akan
dipengaruhi oleh perubahan belajar dan kematangan yang terjadi pada diri siswa.

Reliabilitas Split-Half. Sesuai dengan namanya, reliabilitas split-half adalah suatu koefisien yang diperoleh dengan
pembagian suatu skor tes ke dalam dua bagian yang masing-masing separuhnya, kemudian kedua bagian skor tes
tersebut dikorelasikan untuk menentukan koefisien reliabilitasnya. Pembagian data dipecah atas nomor ganjil dan
genap, memecah butir-butir tes menjadi dua bagian yang sama jumlahnya, memilih butir secara acak, atau
berdasarkan keseimbangan materi dan tingkat kesukaran. Pendekatan ini mempunyai suatu keuntungan, yakni
hanya memerlukan satu kali pengujian. Kelemahannya adalah koefisien yang dihasilkan akan bervariasi tergantung
bagaimana tes tersebut dipecah. Juga tidak cocok digunakan untuk mengukur reliabilitas tes kecepatan (speed test),
karena skor siswa dipengaruhi oleh seberapa banyak butir tes yang dijawab dalam waktu yang tersedia.

Konsistensi internal. Konsistensi internal tergantung pada interkorelasi butir tes, yang juga disebut homogenitas.
Rumus statistik terbaik yang digunakan untuk menentukan koefisien reliabilitas konsistensi internal adalah: Alpha
Cronbach dan Kuder-Richardson (KR-20 dan KR-21). Kebanyakan program pengujian melaporkan bahwa hasil
pengujian dengan Alfa Cronbach secara fungsional setara dengan KR-20.

Keuntungan penggunaan statistik ini adalah hanya memerlukan satu kali administrasi tes dan tidak tergantung pada
pemecahan materi tes. Sedangkan kerugiannya adalah akan efektif diterapkan jika tes hanya mengukur area
keterampilan tunggal. Hanya membutuhkan rerata skor tes, simpangan baku atau varians, dan sejumlah butir, KR-
20 adalah rumusan reliabilitas yang paling sederhana. Dan rumus KR-21 hampir selalu menghasilkan koefisien
yang lebih rendah dari KR-20. Kesederhanaannya menjadikannya sebagai rumus reliabilitas yang paling banyak
digunakan khususnya untuk mengevaluasi tes yang dikembangkan di kelas. Namun, rumus ini tidak dapat
digunakan untuk menentukan reliabilitas skor dikotomi.

b. Seberapa Tinggi Koefisien Reliabilitas
Reliabilitas tes adalah proporsi varians tulen (true variance) dalam skor tes (Guilford, 1982). Penilaian kecukupan
koefisien reliabilitas tes dapat diacuh dari pendapat Aiken (1988) bahwa jika tes akan digunakan untuk
menentukan signifikansi perbedaan rerata skor dua kelompok siswa maka koefisien reliabilitas sebesar 0,65
dianggap memuaskan. Dan jika tes akan digunakan untuk membandingkan siswa yang satu dengan yang lainnya
maka paling tidak diperlukan koefisien reliabilitas sebesar 0,85. Untuk menjelaskan keberartian koefisien
reliabilitas dapat pula diacuh dari galat baku pengukuran, yang dihitung dengan menggunakan rumus: ; dimana:
Sm = galat baku pengukuran; Sx = simpangan baku skor tes; dan rx = koefisien reliabilitas tes.

Misalnya, dari hasil perhitungan koefisien reliabilitas instrumen dengan menggunakan rumus Alpha Cronbach
diperoleh 0,93 dengan galat baku pengukuran 6,88. Hal ini berarti bahwa tes tersebut sangat terandalkan karena
dapat mengukur 93 persen keragaman skor yang sebenarnya, dan bila dalam jangka waktu tertentu dan dalam
kondisi yang sama para responden merespon kembali tes tersebut maka rentangan penyimpangan skor total yang
dicapai masing-masing responden berkisar antara + 6,88; jadi bila pada tes pertama seseorang siswa memperoleh
skor total 450 maka kemungkinan rentangan skor total yang dicapai pada tes berikutnya adalah 450+ 6,88 atau
paling rendah 443,12 dan paling tinggi 456,88.

Jika tes yang diadministrasikan memiliki konsekuensi tinggi, seperti tes yang digunakan untuk penempatan dalam
pendidikan, misalnya ujian akhir SMU, dan sertifikasi profesional, maka diperlukan reliabilitas konsistensi internal
yang tinggi paling sedikit di atas 0,90, dan paling baik jika di atas 0,95. Kesalahan klasifikasi yang disebabkan oleh
kesalahan pengukuran harus diperkecil. Tetapi perlu dicatat bahwa tidak satu pun tes dengan sendirinya dapat
digunakan untuk membuat suatu keputusan penting bagi seseorang.

Tes di kelas tidak selalu membutuhkan koefisien reliabilitas tinggi. Ketika para siswa lebih menguasai materi yang
diujikan, variabilitas tes akan menurun, sehingga reliabilitas tes juga akan menurun. Para guru mengawasi siswa
mereka sepanjang hari dan mempunyai peluang untuk mengumpulkan masukan dari berbagai sumber informasi.
Jika pengetahuan dan pertimbangan guru digunakan bersama dengan informasi yang diperoleh dari tes, maka akan
dapat menyediakan informasi yang lebih lengkap. Jika suatu tes tidak reliabel atau tidak akurat untuk siswa secara
perorangan, maka guru perlu membuat koreksi penyesuaian. Suatu koefisien reliabilitas sebesar 0.50 atau 0.60
mungkin cukup untuk tes di kelas.
Selanjutnya, reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas juga perlu
dievaluasi dalam kaitan dengan kelompok peserta tes. Suatu tes dengan koefisien reliabilitas 0.92 ketika diujikan
pada siswa dalam beberapa kelas maka koefisien reliabilitas yang diperoleh tidak akan sama jika tes tersebut hanya
diujikan pada satu kelas saja.

Reliabilitas berhubungan dengan konsistensi hasil pengukuran. Reliabiltas dipengaruhi oleh cakupan instrumen
penilaian. Misalnya, suatu instrumen tes tertentu yang mencakup sasaran belajar dan butir yang terbatas memiliki
reliabilitas yang lebih rendah dibanding dengan tes yang mencakup sasaran belajar yang lebih luas dengan jumlah
butir yang lebih banyak.

Instrumen yang representatif dengan kesalahan pengukuran yang relatif kecil akan memiliki reliabilitas tinggi.
Kesalahan pengukuran dapat diperkecil melalui penulisan butir instrumen yang jelas, petunjuk yang mudah
dipahami, administrasi instrumen yang sesuai, dan penskoran yang konsisten. Suatu instrumen tes adalah suatu
sampel perilaku dari keterampilan yang diinginkan, tes lebih panjang dengan sampel yang lebih besar,
memungkinkan untuk lebih reliabel. Hasil ujian akhir dari suatu unit pembelajaran dengan waktu satu jam akan
lebih reliabel ketimbang hasil ujian harian dengan jangkauan materi dan waktu yang terbatas.

c. Ancaman terhadap Reliabilitas
Semua jenis instrumen tes atau nontes tidak terlepas kesalahan. Hal ini berlaku untuk instrumen tes dalam ilmu-
ilmu eksakta dan dalam ilmu-ilmu psikologi dan pendidikan. Misalnya, dalam mengukur panjang dengan suatu
penggaris, mungkin ada kesalahan sistematis berhubungan dengan di mana titik nol dicetak pada penggaris dan
kesalahan acak berhubungan dengan kemampuan mata dalam membaca tanda-tanda dan memperhitungkan tanda-
tanda tersebut. Juga memungkinkan bahwa panjang obyek dapat berubah dari waktu ke waktu dan pada lingkungan
yang berbeda (misalnya perubahan temperatur). Salah satu tujuan penilaian adalah untuk mengurangi kesalahan
tersebut hingga ke tingkatan yang sesuai dengan tujuan tes. Tes yang beresiko tinggi (high-stakes tes), seperti ujian
untuk mendapatkan SIM, harus mempunyai kesalahan yang sangat kecil. Tes di kelas dapat mentolerir kesalahan
yang lebih tinggi secara wajar kesalahan tersebut mudah dikoreksi sepanjang proses pengujian. Reliabilitas hanya
mengacu pada derajat tingkat kesalahan yang tidak sistematis, yang disebut kesalahan acak.

Ada tiga sumber kesalahan utama, yaitu: faktor dalam tes itu sendiri, faktor siswa yang dites, dan faktor penskoran.
Umumnya tes berisi suatu koleksi butir yang mengukur keterampilan tertentu. Adakalanya guru secara khas
menggeneralisasikan masing-masing butir tes ke semua materi yang diukur oleh tes itu. Sebagai contoh, jika
seorang siswa dapat memecahkan beberapa permasalahan seperti 7x8, maka mungkin akan disamaratakan
kemampuannya dalam mengalikan angka tunggal bilangan bulat. Juga mungkin akan menyamaratakan suatu
kumpulan materi kepada suatu domein yang lebih luas. Jika siswa dapat menyelesaikan penjumlahan,
pengurangan, perkalian, dan pembagian, maka mungkin akan disimpulkan bahwa siswa tersebut mampu menyele-
saikan operasi pecahan. Kesalahan dapat pula disebabkan oleh pemilihan butir untuk mengukur domein dan
keterampilan tertentu. Materi yang tercakup dalam tes berbeda menurut format masing-masing tes, kesalahan
pensampelan, pembatasan butir tes, dan karena menyamaratakan ke data yang tidak diamati, yakni, kemampuan
siswa terhadap keseluruhan butir yang mungkin terdapat dalam tes. Ketika keterampilan dan domain yang diukur
menjadi lebih rumit, mungkin akan terjadi lebih banyak kesalahan yang disebabkan oleh pensampelan materi.
Sumber lain kesalahan tes adalah ketidakefektifan pengecoh dalam tes pilihan ganda, seperti jawaban benar yang
lebih banyak, dan tingkat kesukaran butir tes.

Sebagai manusia, para siswa tidaklah selalu konsisten dan juga tidak terlepas dari kesalahan dalam menyelesaikan
tes. Apakah tes itu dimaksudkan untuk mengukur kemampuan khusus atau kemampuan siswa secara optimal,
perubahan dalam berbagai hal seperti sikap siswa, kesehatan, dan rasa kantuk dapat mempengaruhi kualitas usaha
dan konsistensi siswa dalam menyelesaikan tes. Sebagai contoh, peserta tes mungkin membuat kesalahan karena
teledor, salah menafsirkan petunjuk tes, melupakan instruksi tes, melupakan beberapa butir tes, atau salah baca
butir tes.

Kesalahan penskoran merupakan sumber sepertiga dari kesalahan potensial. Pada bentuk tes objektif, penskoran
bersifat mekanik, dan kesalahan penskoran harus diperkecil. Pada tes uraian, sumber kesalahan meliputi
ketidakjelasan rubrik penskoran, ketidakjelasan apa yang diharapkan dari siswa, dan beberapa kesalahan yang
bersumber dari penilai. Para penilai tidaklah selalu konsisten, kadang-kadang merubah ukuran-ukuran mereka
selagi menskor, dan terkadang terpengaruh oleh hal-hal yang tidak berhubungan dengan skor tes seperti efek halo,
latar belakang siswa, perbedaan persepsi, kebaikan hati atau kepelikan, dan kesalahan dalam penskalaan (Rudner,
1992).


D. KESIMPULAN
Validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya. Validitas dibedakan atas: validitas
isi mengkaji kepadanan sampel yang terdapat dalam suatu instrumen; validitas konstruk mengkaji sifat-sifat
psikologis yang dapat menjelaskan perbedaan-perbedaan responden dalam hal keragaman pencapaian skor tes
dalam instrumen tertentu; dan validitas relasi kriteria membandingkan skor responden dengan satu atau lebih
variabel eksternal.

Reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragaman sistematis dalam populasi peserta
tes. Reliabilitas adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari
suatu kelompok dengan kelompok lainnya. Terdapat beberapa statistik untuk menghitung stabilitas skor tes yaitu:
reliabilitas test-retest, reliabilitas split-half, dan reliabilitas konsistensi internal.

Para profesional pengukuran menempatkan kebanyakan penekanan mereka dalam penilaian pada reliabilitas. Suatu
pengakuan umum dalam teori tes bahwa suatu tes akan menjadi valid (benar) jika tes tersebut reliabel. Asumsi ini
didasarkan pada suatu model matematika teori tes dimana skor perolehan terdiri atas skor tulen dan galat. Semakin
sedikit kesalahan dalam suatu tes (yaitu semakin reliabel) semakin valid skor tes tersebut. Suatu penilaian yang
tidak reliabel secara otomatis tidak valid. Instrumen yang memiliki reliabilitas tinggi diperlukan jika hasil penilaian
akan digunakan untuk pengambilan keputusan yang penting. Sebaliknya, reliabilitas tingkat menengah diperlukan
jika hasil penilain kurang penting, dan penilaian didasarkan atas beberapa sumber informasi.

Faktor-faktor yang mempengaruhi reliabilitas suatu instumen adalah: (1) instrumen yang lebih panjang lebih
reliabel dari instrumen yang lebih pendek; (2) reliabilitas akan rendah bila penyebaran skor rendah; (3) semakin
obyektif penskoran semakin tinggi reliabilitas; (4) reliabilitas instrumen akan berbeda jika diadministrasikan
kepada responden yang memiliki sebaran kemampuan yang berbeda; (5) interval waktu pengambilan data dalam
penentuan reliabilitas test-retest juga dapat mengaruhi relibiabilitas instrumen.


DAFTAR PUSTAKA

Aiken, lewis R. Psychological Testing and Assessment. Massachusetts: Allyn and Bacon Inc., 1988.
Anastasi, A. Psychological Testing. New York: MacMillan Publishing Company, 1987.
Bloom, B. S., Madaus, G.F., & Hastings, J. T. Evaluation to Improve Learning. New York: McGraw-Hill Book
Company, 1981.
Crocker, Linda and James Algina. Introduction to Classical and Modern Test Theory. Orlando, Florida: Holt,
Rinehart and Winston, Inc., 1986.
Cronbach, L. J. Essentials of Psychological Testing. Third Edition. New York: Harper & Row, Publishers, 1970.
Fredericksen, J.R., & Collins, A. A systems approach to educational testing. Educational Researcher, 1989.
Gregory, Robert J. Psychological Testing History, Principles, and Applications. Boston: Allyn & Bacon, 2000.
Gronlund, Norman E. Measurement and Evaluation in Teaching. New York: McMillan Publishing Company,
1985.
Guilford, J.P. Psychomeric Methods. New Delhi: Tata McGraw-Hill Publishing Co. Ltd., 1982.
Hopkins, Charles D., and Richard L. Antes. Classroom Measurement and Evaluation. Itasca, Illinois, 1990.
Linn, R. L., & Gronlund, N. E. Measurement and Assessment in Teaching, Seventh Edition. Englewood Cliffs, NJ:
Merrill, an imprint of Prentice Hall, 1995.
Mehrens, W. A., & Lehmann, I. J. Measurement and Evaluation in Education and Psychology. Fourth Edition. Fort
Worth, TX: Holt, Rinehart, and Winston, Inc., 1991.
Messick, S. Validity In Educational Measurement. Robert Linn (Ed.). Washington, DC: American Council on
Education, 1989.
Nitko, A. J. Educational Assessment of Students. Englewood Cliffs, NJ: Merrill an imprint of Prentice Hall, 1996.
Nunnaly, Jum C. Jr. Introduction to Psychological Measurement. New York: McGraw-Hill Book Company, 1970.
Oosterhof, A. Developing and Using Classroom Assessments. Englewood Cliffs, NJ: Merrill, an imprint of
Prentice Hall, 1996.
Popham, W. James. Classroom Assessment, What Teachers Need to Know. Boston: Allyn and Bacon, 1998.
Shavelson, R., G. Baxter, & J. Pine. Performance Assessments: Political Rhetoric and Measurement Reality.
Educational Researcher, 1992.
Stapleton, Connie D. Basic Concepts in Exploratory Factor Analysis (EFA) as a Tool to Evaluate Score Validity :
A Right-Brained Approach. http://www.utexas.Edu /stat/packs. html., 2002
a).Objektivitas


        Sebuah tes dikatakan memiliki objektivitas apabila dalam melaksanakan tes itu tidak ada faktor subyektif yang
mempengaruhi. Hal ini terutama pada sistem skoringnya, apabila dikaitkan dengan reliabilitas maka obyektivitas menekankan
ketetapan pada sistem skoring, sedangkan reliabilitas menekankan ketetapan dalam hasil tes. Ada dua faktor yang
mempengaruhi subjektivitas dari sesuatu tes yaitu bentuk tes dan penilaian.


b).Praktikabilitas


        Sebuah tes dikatakan memiliki praktikabilitas yang tinggi apabila tes itu bersifat praktis, mudah untuk
pengadministrasiannya. Tes yang praktis adalah tes yang:


1).Mudah dilaksanakannya; misalnya tidak menuntut peralatan yang banyak dan memberi kebebasan kepada siswa untuk
   mengerjakan terlebih dahulu bagian yang dianggap mudah oleh siswa.


2).Mudah memeriksanya artinya bahwa tes itu dilengkapi dengan kunci jawaban maupun pedoman skoringnya. Untuk soal
   yang obyektif, pemeriksaan akan lebih mudah dilakukan jika dikerjakan oleh siswa dalam lembar jawaban.


3).Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat diberikan/ diawali oleh orang lain


c).Ekonomis


        Yang dimaksud dengan ekonomis ialah bahwa pelaksanaan tes tersebut tidak membutuhkan ongkos/biaya yang
mahal, tenaga yang banyak danwaktu yang lama, baik untuk memproduksinya maupun untuk melaksanakan dan mengolah
hasilnya.


        Dengan mempertimbangkan kriteria-kriteriates tersebut, sewajarnya dapat dihasilkan alat tes (sosal-soal) yang
berkualitas yang memenuhi syarat-syarat dibawah ini :


1).Shahih (valid), yaitu mengukur yang harus diukur, sesuai dengan tujuan


2).Relevan, dalam arti yang diuji sesuai dengan tujuan yang diinginkan


3).Spesifik, soal yang hanya dapat dijawab oleh peserta didik yang betul-betul belajar dengan rajin


4).Tidak mengandung ketaksaan (tafsiran ganda). harus ada patokan; tugas ditulis konkret. Apa yang harus diminta; harus
   dijawab berapa lengkap


5).Representatif, soal mewakili materi ajar secara keseluruhan


6).Seimbang, dalam arti pokok-pokok yang penting diwakili, dan yang tidak penting tidak selalu perlu.


1).Teknik Nontes

        Teknik nontes sangat penting dalam mengevaluasi siswa pada ranah afektif dan psikomotor, berbeda dengan teknik
tes yang lebih menekankan asfek kognitif. Ada beberapa macam teknik nontes, yakni: pengamatan (observation),
wawancara (interview), kuesioner/angket (questionanaire), dan analisis dokumen yang bersifat unobtrusive.


a. Observasi


Contoh Pedoman Observasi

    Mata Pelajaran: Biologi
     Konsep/Subkonsep: 1.1 Vegetatif Buatan

             1.1.1. Mencangkok

     Kelas: IMA

     Hari/tanggal: Ahad, 11 September 2004

     Jampel ke-: 1

     Nama Siswa: Ali


NO                KEGIATAN/ASPEK YANG DINILAI            NILAI      KET
 1       Langkah persiapan (penyiapan alat dan bahan)     ….
 2       Cara mengelupas kulit bagian luar                ….
 3       Cara mengelupas kulit bagian dalam               ….
 4       Cara membersihkan getah/lendir                   ….
 5       Cara menaburkan tanah                            ….
 6       Cara membungkus dan mengikat                     ….
                         Jumlah                           ….
                        Rata-rata                         ….


Catatan: >> Pemberian nilai dapat menggunakan angka 1 – 10atau A, B, C, D


Contoh observasi dengan check-list


Mengungkap perilaku/sikap siswa dalam mengikuti pelajaran Biologi


Nama Siswa: Ali

Kelas: II


                Kegiatan/               SL        Sr         Kd           TP
No
            Aspek yang dinilai        selalu    sering     kadang    tdkprnh
 1       Hadir tepat waktu                V
 2       Rapi dalam berpakaian            V
 3       Hormat kepada guru               V
 4       Suka mengganggu teman            V
 5       Mngerjakan PR di                 V
         sekolah


Rekap Penilaian


b. Wawancara(Interview)


Contoh Pedoman Wawancara


1. Wawancara Terbimbing (guided interview)


Nama Siswa:

Kelas:

Hari/ Tangal:

Pokok Pembicaraan:
   Mengungkap kebiasaan di rumah dan penggunaan waktu luang siswa


    1.   Apa yang kamu lakukan sepulang sekolah sampai menjelang tidur?
    2.   Apakah kamu suka olahraga, jenis olahraga apa? Adakah jadwal khusus untuk olahraga?
    3.   Dalam sepekan berapa kali kamu belajar kelompok? Mata pelajaran apa yang paling sering dibahas bersama?
    4.   Adakah kelompok belajar di tempat tinggalmu? Bagaimana peran kamu dalam kelompok tersebut?
    5.   Kapan dan bagaimana cara kamu belajar di rumah?

2. Wawancara bebas (unguided interview)


Nama Siswa:

Kelas:

Hari/Tgl:

Pokok Pembicaraan:


   Mengungkap tanggapan siswa terhadap kebijakan kepala madrasah tentang Kegiatan Tadabur Alam


(siswa diberikan pertanyaan-pertanyaan yang dapat dikembangkan lebih jauh atas dasar jawaban sebelumnya, sampai
diperoleh kesimpulan yang jelas atau dibatasi waktu)

c. Kuesioner (Questionaire)


Contoh penggunaan kuesioner


Nama Siswa:

    1. Pada waktu melihat sampah bertebaran di jalan, saya berusaha untuk membuang ke tempat sampah:

         a.sangat sering

         b.sering

         c.kadang-kadang

         d.jarang

         e.tidak pernah

    1. Saya mengerjakan PR setelah teman-teman mengerjakan:

         a.selalu

         b.sering

         c.kadang-kadang

         d.jarang

         e.tidak pernah

    1. Adam berkata kepada temannya: “Kalau tidak ada PR kita tidak perlu belajar”. Terhadap pernyataan Adam tersebut,
         saya:

         a. sangat setuju

         b. setuju

         c. ragu-ragu

         d. tidak setuju
        e. sangat tidak setuju

A.Ringkasan


Atas dasar pemaparan dan pembahasan tentang evaluasi pembelajaran di atas, maka dapat disimpulkan beberapa kajian dan
pembahasan yang esensial dari bab ini, yakni sebagai berikut:


1).Dalam konteks penilaian ada beberapa istilah yang digunakan, yakni pengukuran, assessment dan evaluasi


2).Evaluasi merupakan salah satu kegiatan utama yang harus dilakukan oleh seorang guru dalam kegiatan pembelajaran.
   Dengan penilaian, guruakan mengetahui perkembangan hasil belajar, intelegensi, bakat khusus, minat, hubungan sosial,
   sikap dan kepribadian siswa atau peserta didik


3).Evaluasi memiliki beberapa tujuan, antara lain (a) untuk mengetahui kemajuan belajar siswa setelah mengikuti kegiatan
   pembelajaran dalam jangka waktu tertentu, (b) untuk mengetahui efektivitas metode pembelajaran yang digunakan, (c)
   untuk mengetahui kedudukan siswa dalam kelompoknya, dan (d) untuk memperoleh masukan atau umpan balik bagi
   guru dan siswa dalam rangka perbaikan.


4).Penilaian Berbasis Kelas (PBK) merupakan suatu proses pengumpulan, pelaporan, dan penggunaan informasi tentang hasil
   belajar siswa dengan menerapkan prinsip-prinsip penilaian berkelanjutan, otentik, akurat, dan konsisten dalam kegiatan
   pembelajaran di bawah kewenangan guru di kelas


5).Pelaksanaan evaluasi pembelajaran dapat dilakukan dengan menggunakan berbagai alat evaluasi, antara lain, kuesioner,
   tes, skala, format observasi, dan lain-lain. Dari sekian banyak alat evaluasi, secara umum dapat dikelompokkan menjadi
   dua, yakni alat tes dan nontes


B.Pertanyaan Diskusi


Untuk mengkaji lebih lanjut terkait dengan pembahasan tentang evaluasi pembelajaran ini, maka ada beberapa hal yang bisa
didiskusikan di kelas, yakni sebagai berikut:


  Diskusikan dengan teman-teman Anda di kelas!
    1).Apa yang dimaksud dengan evaluasi, assesmen dan pengukuran dalam konteks penilaian pembelajaran?
    2).Apakah tujuan diberlakukannya evaluasi dalam pembelajaran?
    3).Apa yang dimaksud dengan Penilaian Berbasis Kelas?
    4).Bagaimana teknis pelaksanaan Penilaian Berbasis Kelas?
    5).Bagiamanakah tahapan-tahapan pelaksanaan evaluasi dalam proses pembelajaran


Jelaskan model tes yang digunakan dalam proses pembelajaran

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:5867
posted:2/4/2010
language:English
pages:11