13a Theori Respons Item IRT

Document Sample
13a Theori Respons Item IRT Powered By Docstoc
					KPN2043

                        Teori Respons Item
                                Oleh Haji Ahmad Zawawi bin Abdullah


Pendahuluan
Teori Respons Item (TRI) atau lebih dikenali sebagai Item Response
Theory (IRT) juga dikenali sebagai Teori Ciri Terpendam (TCT) atau
Latent Trait Theory (LTT). Teori merupakan teori pengujian moden
berbanding dengan Teori Pengujian Klasik (TPK) atau Classical Test
Theory (CTT). Ia tidaklah satu-satunya teori pengujian yang
termoden. Terdapat banyak lagi teori-teori pengujian moden, tetapi ia
adalah teori yang paling popular sekarang ini dalam bidang pengujian,
dan yang teraktif terlibat dalam penyelidikan. IRT atau TRI
memerlukan kepada andaian yang kuat daripada andaian teori
pengujian klasik, CTT. Dalam IRT, skor sebenar atau true score, T,
ditakrifkan ke atas ciri terpendam yang diukur, bukan di atas ujian
yang sedang diperihalkan, seperti dalam teori pengujian klasik, CTT.
IRT menjadi lebih popular kerana ia dapat menjustifikasikan teori yang
digunakan. Di antara penggunaan-penggunaan IRT ialah:
       Analisis Bais Item (item berat sebelah) – IRT dapat menguji
        kesetaraan item-item merentasi kumpulan. Kita dapat menguji
        sama ada ujian yang kita bina itu menunjuk perlakuan yang
        berbeza bagi ras yang berlainan, atau menunjukkan hasil yang
        berbeza bagi jantina yang berlainan. IRT juga peka kepada
        terjemahan ujian, iaitu kita dapat mengesan sama ada item-item
        dalam bahasa Melayu berfungsi sama atau tidak apabila ia
        diterjemahkan ke dalam bahasa lain seperti bahasa Inggeris.
       Penyetaraan Ujian – Ada kala kita mempunyai skor di dalam
        sesuatu ujian dan kita menghendaki mengetahui skor yang
        setara pada suatu ujian yang lain, contohnya bagi ujian dalam
        bentuk atau versi bulanan atau tahunan yang lain. IRT
        mempunyai justifikasi teori untuk penyetaraan skor dari satu
        ujian ke satu ujian yang lain.
       Penyesuaian Ujian -- IRT menghasilkan anggaran skor
        sebenar, T, yang tidak berdasarkan di atas bilangan item yang
        betul seperti dalam teori pengujian klasik, CTT. Dengan ini IRT
        membebaskan kita memberi ujian yang berlainan kepada
        kumpulan yang berlainan, tetapi kita masih dapat meletakkan
        individu pada skala yang sama. Satu ciri terpenting dalam ujian
        penyesuaian (tailored testing) ialah, kebolehan kita memberi

                                     1
hazba
KPN2043
        individu item-item yang sepadan dengannya. Pelajar yang pintar
        akan mendapat item-item yang lebih sukar, pelajar yang lemah
        diberi item yang lebih mudah yang pada aras kebolehan individu
        tersebut. Implikasi dari ciri ini ialah kita dapat memberi setiap
        individu ujian yang berlainan yang sesuai dengan tahap
        kebolehan mereka. Ini adalah baik dari segi keselamatan
        pengujian.


Prinsip-prinsip Asas IRT
Andaian
1. Terdapat satu faktor tunggal sahaja yang mempengaruhi kovarian
   semua item. Faktor sepunya ini adalah ciri terpendam yang
   sedang diukur ujian tersebut. Keadaan ini biasanya dinyatakan di
   dalam berbagai cara di dalam penulisan.
    a) Ekadimensi (unidimensionality) – terdapat satu sahaja ciri
       terpendam yang diukur
    b) Kemerdekaan setempat (local independence) – jika kita
       mengasingkan bahagian-bahagian faktor sepunya ujian daripada
       mana-mana dua item dalam ujian terlibat, kita akan mendapati
       baki kovarian adalah sifar.
        Kemerdekaan setempat membawa maksud apabila ciri terpendam
        yang diukur itu tetap (constant), maka respons pelajar terhadap
        mana-mana pasangan item adalah bebas statistik. Ini membawa
        maksud bahawa hanya ciri terpendam yang ukur itulah yang
        mempengaruhi respons pelajar terhadap item-item berkenaan.
        Secara matematik adalah dirumuskan bahawa bagi seseorang
        pelajar, kebarangkalian ia menjawab ke atas satu set item
        bersamaan dengan hasil darab kebarangkalian respons pelajar
        kepada set item berkenaan. Menurut Lord (1980) dan Lord &
        Norvick (1968), apabila andaian ekadimensi ini adalah benar,
        maka kemerdekaan setempat wujud dengan sendirinya.
    Andaian ini tidak pernah dipenuhi setepatnya. Walau
    bagaimanapun, adalah nyata apabila sesuatu ujian dibina yang
    mengandungi beberapa item, semua item akan berkisar di sekitar
    satu kurikulum tertentu. Contohnya ujian sejarah akan berkisar di
    sekitar kurikulum sejarah. Penyelidikan telah menunjukkan bahawa
    ketidaktepatan yang kecil ke atas andaian ini tidak menjejaskan
    pengiraan statistik ujian. Berdasarkan pengalaman dengan
    program-program IRT yang telah ditulis, program akan berjalan

                                     2
hazba
KPN2043
    dengan baik asalkan ada satu faktor tunggal utama yang jelas dan
    dominan di dalam data.
2. Pertalian di antara ciri terpendam yang diukur dengan respons yang
   dicerap mengambil satu bentuk tertentu. Garis yang mengaitkan ciri
   terpendam dengan respons dipanggil Keluk Ciri Item (KCI) atau
   Item Characteristic Curve (ICC). Untuk kependekan ia dinyatakan
   sebagai ICC.


Model ICC
Mengikut teori keluk ciri item atau ICC boleh mengambil berbagai
bentuk.
Satu pertalian yang linear boleh terjadi, seperti dalam ujian yang
mengukur ciri perbendaharaan kata dalam Bahasa Inggeris
(Vocabulary Test), pertalian di antara ciri yang diuji (vocabulary)
dengan skor cerapan boleh mengambil bentuk graf linear seperti
berikut.




                                    3
hazba
KPN2043
Model Fungsi Linear

                                              Pertalian di antara Ciri Vocabulary dengan Respons Betul



                                   1.0
                                   0.9
                                   0.8
   Kebarangkalian Menjawab Betul




                                   0.7
                                   0.6
                                                                                                ICC
                                   0.5
                                   0.4
                                   0.3
                                   0.2
                                   0.1
                                   0.0
                                         -3           -2          -1          0            1             2   3
                                                                  Theta ( (Ciri Vocabulary)


Dalam IRT, ciri terpendam diberi simbol Theta (), dalam contoh di
atas ini, ia mewakili ciri yang di ukur iaitu kebolehan dalam
perbendaharaan kata Bahasa Inggeris (individual differences in
English vocabulary). Skala theta (paksi-x) ini mempunyai nilai min
populasi () sifar dan nilai sisihan piawai populasi () bersamaan
dengan satu. Bagi mana-mana satu item vocabulary adalah didapati
bahawa apabila kebolehan dalam ciri vocabulary bertambah, maka
kebarangkalian individu itu mendapat menjawab dengan betul juga
akan bertambah. Paksi menegak (paksi-y) ialah kebarangkalian
mendapati jawapan betul. Garis terhasil dikenali sebagai keluk ciri item
atau Item Characteristic Curve (ICC). ICC adalah satu fungsi
menaik. Dalam contoh di atas ICCnya ialah satu fungsi linear (garis
lurus).
Banyak teori terdahulu memang menganggap bahawa fungsi di antara
ciri terpendam dengan respons adalah satu fungsi menaik linear.
Walau bagaimanapun fungsi begini mempunyai masalah berikut. Jika
kita bergerak ke atas atau ke bawah skala kebolehan theta,
melampaui sisihan piawai –3 atau 3, kita akan mengalami


                                                                         4
hazba
KPN2043
kebarangkalian mendapat jawapan betul akan jatuh rendah daripada
sifar atau melebihi daripada 1.0.


Model Fungsi Tangga
Satu pendekatan yang kedua yang agak penting di ketahui ialah
dengan mengguna fungsi tangga (step function) untuk ICC.

                                        Pertalian di antara Ciri Kebolehan dengan Respons Betul (Item Skala
                                                                       Guttman)



                                      1.0
                                      0.9
                                      0.8
  Kebarangkalian Menjawab Betul , P




                                      0.7
                                                           Fungsi
                                      0.6                  Tangga
                                      0.5
                                      0.4
                                      0.3
                                      0.2
                                                                 C
                                                                 T




                                      0.1
                                                                 (
                                                                 )
                                                                 /




                                      0.0
                                            -3        -2            -1          0           1         2       3
                                                                    Theta ( (Ciri Kebolehan)



Dalam graf contoh di atas, kebarangkalian mendapat jawapan betul
P(C/T) adalah sifar hinggalah  mencapai nilai 0.75, dan pada ketika
itu ia terus melompat menjadi 1.0. Keadaan ini boleh didapati seperti
kita mengukur tinggi seseorang dengan satu kriteria, contohnya satu
kayu pengukur yang tingginya 5 kaki. Semua dibandingkan dengan
kayu pengukur itu. Sesiapa yang rendah daripada kayu pengukur itu
akan gagal dan mendapat skor sifar, dan sesiapa yang tinggi melepasi
kayu pengukur itu akan lulus dan mendapat skor 1.0. Kita mendapat
ICC yang berbentuk seperti di atas yang mengambil bentuk fungsi
tangga, di mana theta  bersamaan dengan ciri ketinggian dan P
adalah kebarangkalian seseorang itu tinggi daripada kayu pengukur.

                                                                           5
hazba
KPN2043
Model Ogif Normal
Satu lagi lengkuk yang telah dicadangkan ialah taburan normal
kumulatif (cumulative normal distribution) atau ogif normal. Lengkuk
ini bergerak dari sifar ke satu, dan bergerak secara beransur-ansur
berbanding dengan fungsi tangga.




                                 6
hazba
KPN2043
Model Fungsi Logistik
Walau bagaimanapun fungsi normal adalah satu fungsi yang kompleks
dan sangat merumitkan menggunakannya. Oleh itu ia telah diganti
dengan fungsi logistik. Berikut adalah contoh ICC fungsi logistik.


                                                      Model Logistik 3 Parameter

                                    1.0

                                    0.9
    Kebarangkalian Menjawab Betul




                                    0.8
                                                                 Item 1
                                    0.7
                                                                                             Item 2
                                    0.6

                                    0.5

                                    0.4

                                    0.3

                                    0.2

                                    0.1

                                    0.0
                                       -3.0        -2.0     -1.0          0.0          1.0   2.0      3.0
                                                                        The ta


Bentuk yang paling umum bagi lengkuk logistik ialah model logistik 3
parameter. Formula nya adalah seperti berikut.
                                                                     Da   (  b   )

 P                                                             e g      g


  g                                          c g  (1  c g )       Da (  b g )
                                                                 1 e g




di mana P ialah kebarangkalian mendapat jawapan yang betul, dan
theta () mewakili ciri terpendam yang diukur. Simbol e adalah
eksponen asli (nilainya ialah 2.71). Pemboleh ubah a, b, dan c adalah
parameter bagi lengkuk tersebut. Parameter-parameter ini berubah
                                                                      7
hazba
KPN2043
dari item ke item, dan mereka menentukan bentuk ICC bagi setiap
item itu.
Dalam model logistik ini, data perlu datang daripada sampel yang
besar. Ini perlu untuk membuat lengkuk yang terhasil berfungsi
dengan sempurna di kedua penghujung graf kerana biasanya sampel
akan menjadi terlalu kecil di penghujung graf.


Fungsi parameter model logistik
Parameter Kesukaran, b
Parameter yang terpenting dalam model ini ialah parameter b.
Parameter ini dikenali sebagai parameter kesukaran. Parameter ini
meletakkan lokasi atau kedudukan titik infleksi lengkuk ICC itu.




Parameter kesukaran meletak lokasi titik infleksi lengkuk pada paksi
mengufuk (paksi-x). Ia menanjak lengkuk ke kiri dan ke kanan. Bagi
item yang lebih sukar ia akan menganjaknya ke kanan, dan bagi item
yang lebih mudah ia akan menganjaknya ke kiri. Oleh itu parameter b
menunjukkan kesukaran item tersebut. Dalam contoh di atas, nilai
parameter c ialah sifar. Apabila c = 0, titik infleksi lengkuk akan berada
tepat pada garis p = .50, iaitu ia bermaksud bahawa seseorang yang
mempunyai kebolehan  = b mempunyai perkadaran p = .50, atau
50% kemungkinan mendapat menjawab item berkenaan dengan betul.
                                    8
hazba
KPN2043
Lokasi b boleh didapati dengan menjatuhkan satu garis menegak dari
titik infleksi ke paksi mengufuk. Parameter b atau parameter
kesukaran bolehlah dibandingkan dengan indeks kesukaran p dalam
statistik teori pengujian klasik (CTT), iaitu nilai perkadaran pelajar
mendapati item itu betul. Satu ciri terpenting IRT ialah kebolehan
individu dan prestasi item berada pada skala yang sama, iaitu theta, .
Skala ini juga merupakan skala ciri kebolehan (terpendam) yang
diukur. Model IRT di mana nilai parameter b sahaja berubah,
manakala parameter a dan c ditetapkan (constant) dinamakan model
logistik 1 parameter atau lebih dikenali dengan model Rasch.


Parameter Diskriminasi, a
Parameter a dihitung daripada cerun garis tangen kepada ICC pada 
= b. Parameter a adalah kecerunan lengkuk pada titik infleksi, iaitu
pada titik yang tercerun pada lengkuk tersebut. Parameter a dikenali
sebagai parameter diskriminasi. Rakannya yang terdekat di dalam
teori pengujian klasik ialah indeks diskriminasi r, iaitu korelasi skor
item dengan skor ujian.




Lengkuk yang mempunyai kecerunan yang lebih tinggi menunjukkan
kepada item yang lebih diskriminasi, iaitu ia bermaksud yang ia
mempunyai korelasi item kepada jumlah item atau keseluruhan ujian
adalah tinggi. Dalam contoh di atas lengkuk yang mempunyai

                                   9
hazba
KPN2043
parameter a = 2 adalah lebih diskriminasi daripada lengkuk yang
mempunyai parameter a = 1 atau a = 0.5. Sebagai had teratas bagi a,
kita boleh menghampiri fungsi tangga, iaitu di bawah satu kebolehan
tertentu , kebarangkalian mendapat jawapan betul adalah sifar, dan
melepasi nilai tersebut, kebarangkalian melompat ke nilai 1.0.
Keadaan ini boleh didapati jika kita mengguna kriteria sebagai kayu
pengukur. Gagal melepasi kriteria tersebut mendapat sifar dan berjaya
melepasi kriteria tersebut mendapat skor 1.0. Jika nilai parameter a
menjadi lebih kecil, lengkuk menjadi lebih mendatar. Ini menunjukkan
perubahan kebarangkalian mendat jawapan betul adalah amat kecil,
atau tiada diskriminasi di antara individu. Item yang mempunyai nilai a
yang rendah adalah lemah dalam mendiskriminasikan di antara
individu. Model yang membenarkan parameter a dan b berubah untuk
memerihalkan item dinamakan model logistik 2 parameter. Model ini
digunakan untuk mewakili skala sikap (attitude scales) dan sesetengah
ujian pencapaian di mana tekaan (guessing) dianggap tiada.


Parameter Tekaan, c
Parameter c dikenali sebagai parameter tekaan. Parameter c adalah
asimptot bawah lengkuk itu. Ia adalah titik terendah lengkuk apabila ia
bergerak ke infiniti negatif pada paksi mengufuk. Ia ialah
kebarangkalian yang minimum bagi seseorang individu untuk mendapat
jawapan betul bagi item tertentu.




                                  10
hazba
KPN2043
Parameter c digunakan untuk menggambarkan tekaan dalam item
aneka pilihan. Model 3 parameter ini biasa digunakan untuk mewakili
ujian kognitif.


Lengkuk ICC mungkin mengambil berbagai bentuk bergantung pada
nilai parameter a, b, atau c.




Kelemahan CTT dan Kekuatan IRT

Kita di Malaysia masih lagi menggunakan Teori Ujian Klasik (CTT)
dalam pembinaan ujian yang berdasarkan kepada indeks kesukaran
dan indeks diskriminasi item. Kedua-dua statistik ini adalah bergantung-
kumpulan. Seandainya ujian-ujian tadi diprauji kepada kumpulan yang
lemah, maka nilai p dan r nya menjadi rendah dan begitu pula terjadi
jika sebaliknya diuji kepada kumpulan yang baik. Untuk memastikan
kualiti ujian yang dibina itu berkualiti tinggi, pembina ujian hendaklah
memilih sampel yang hampir sama kebolehannya dengan sampel yang
bakal digunakan ujian itu nanti.

Dalam penggunaan model CTT, ciri-ciri pelajar dan ciri-ciri ujian tidak
boleh dipisahkan. Ciri pelajar yang dimaksudkan ialah kebolehan
pelajar, yang dinyatakan sebagai markah yang didapati dalam ujian iaitu
skor cerapan. Oleh itu, kebolehan pelajar diterangkan berdasarkan skor
                                  11
hazba
KPN2043
sesuatu ujian. Sekiranya ujian yang diberikan itu sukar, ramai pelajar
tidak dapat menjawab soalan berkenaan maka pelajar akan dianggap
berkebolehan rendah, tetapi jika ujian yang diberikan itu mudah pelajar
akan dianggap berkebolehan tinggi.

Pengukuran ralat lazimnya dinyatakan sebagai fungsi bagi
kebolehpercayaan skor ujian dan varian. Kedua-dua statistik ini
diandaikan lazim bagi semua pelajar, walhal, skor bagi mana-mana satu
ujian adalah pengukuran yang kurang tepat kerana tiap-tiap pelajar
mempunyai       kebolehan    yang    berbagai.     Di   samping   itu,
kebolehpercayaan ujian pula didefinisikan sebagai korelasi skor ujian
antara beberapa ujian selari yang pada amalannya, sukar dibina atau
tak mungkin dapat dibina. Seperkara lagi ialah             CTT lebih
berorientasikan kepada ujian daripada item. Ini bermaksud CTT tidak
dapat membuat ramalan tentang prestasi seseorang pelajar apabila
pelajar diberikan sesuatu item untuk dijawab. Pembina tidak dapat
menetapkan kebarangkalian seseorang pelajar itu dapat menjawab
betul terhadap sesuatu item yang diberikan kepadanya.

Lantaran daripada masalah-masalah yang dijelaskan di atas, ahli-ahli
psikometri telah berusaha mencari satu teori alternatif dan model
pengukuran mental untuk memperbaiki kelemahan yang terdapat pada
CTT. Antara ciri-ciri teori ujian alternatif yang diidamkan ialah seperti
berikut:

           a.    ciri-ciri item tidak lagi bergantung-kumpulan,
           b.    skor yang menghuraikan kebolehan pelajar tidak
                 bergantung-ujian,
           c.    model dapat menjelaskan hingga paras item,
           d.    model tidak memerlukan ujian selari untuk
                 mentaksirkan kebolehpercayaannya,
           e.    model dapat memberikan pengukuran yang tepat
                 pada setiap skor kebolehan.

Kesemua ciri-ciri yang diperjelas di atas dapat diperoleh dari model IRT.
IRT mempunyai ciri-ciri seperti berikut:

           a.    ciri-ciri item tidak bergantung kepada kumpulan,
           b.    skor kebolehan tidak bergantung kepada ujian,
           c.    model dapat dijelaskan hingga pada aras item,
           d.    model tidak memerlukan ujian selari untuk
                 menentukan kebolehpercayaannya,
            e.   model dapat mengukur ketepatan pada setiap skor
               kebolehan.

                                   12
hazba
KPN2043
Kegunaan IRT

Seiring dengan perkembangan komputer yang begitu pesat, telah
meningkatkan perkembangan IRT dalam penggunaannya. Antara
kegunaan IRT termasuklah:


1.      Pembinaan Ujian

   Pada tahun 1968, Birnbaum telah memperkenalkan konsep
penggunaan Fungsi Maklumat Item (Item Information Function - IIF)
membina ujian untuk menepati satu set jadual spesifikasi ujian.
Manakala Sir Frederick Lord pada tahun 1977 dan 1980 menyediakan
prosedur pembinaan ujian berdasarkan IIF ini. Prosedur yang telah
dicadangkan adalah seperti berikut:

        (a)   Pada awalnya, pembina ujian dikehendaki menetapkan
              bentuk Fungsi Maklumat Ujian (Test Information
              Function - TIF). TIF ini disebut juga sebagai Fungsi
              Maklumat Sasaran (Target Information Function - TaIF).

        (b)   Pembina ujian dikehendaki memilih item daripada bank item
              yang menepati IIF.

        (c)   TIF hendaklah dihitung bagi setiap item yang ditambah ke
              dalam ujian. Ini bertujuan mengetahui kedudukan TIF agar
              item-item yang mempunyai IIF yang sesuai daripada
              kandungan sukatan pelajaran dapat ditambah.

        (d)   Penambahan item hendaklah diteruskan sehingga TaIF
              menyamai atau menghampiri nilai TIF pada satu tahap yang
              munasabah.

Prosedur Lord ini hanya layak digunakan untuk memilih item daripada
bank item yang telah menepati sesuatu model IRT.

Kepesatan dalam perkembangan dan penggunaan komputer telah
memberi kelebihan kepada IRT dalam pembinaan ujian selari. Ujian-
ujian dianggap selari sekiranya keluk ciri ujian itu bertindih dan dapat
memenuhi beberapa keperluan yang bukan psaikometrik. Kini terdapat
model SHA (Bhasah, 1996) separa automatik yang mudah digunakan
oleh guru-guru sekolah untuk membina ujian selari. Guru-guru perlu
mendapatkan item yang berkualiti dari bank item dan memasang ujian
menggunakan hamparan elektronik.

                                   13
hazba
KPN2043
2.      Penyamaan item

Satu lagi kekuatan IRT ialah kebolehannya untuk melakukan
penyamaan antara ujian, dan antara pelajar yang menjawab ujian yang
berbeza. Dalam alam pendidikan terdapat ketika yang memerlukan
seseorang guru itu melakukan penyamaan ujian. Ini dilakukan untuk
membandingkan skor ujian A dengan ujian B, bagi mendapatkan satu
hubungan antara ujian A dengan ujian B, dan skor ujian A bolehlah
ditukarkan kepada metrik ujian B. Ini bermakna pelajar yang mendapat
skor a dalam ujian A, mempunyai skor y* dalam ujian Y. Skor y* ini
adalah bersamaan dengan skor y bagi pelajar yang mengambil ujian Y.

        Dua bentuk penyamaan.

        a.   Penyamaan mendatar
             Ujian pada aras kesukaran yang hampir sama, dan taburan
             kebolehan pelajar yang mengambil ujian berkenaan adalah
             serupa.

        b.   Penyamaan menegak
             Ujian pada aras kesukaran yang berbeza dan taburan
             kebolehan pelajar yang mengambil ujian berkenaan juga
             berbeza.

Perlu diingatkan, dua ujian yang ditadbirkan kepada dua kumpulan
pelajar yang berasingan tidak boleh disamakan (Hambleton dan
Swaminathan, 1985).


Reka bentuk untuk melakukan penyamaan skor pelajar.

        a.   Reka bentuk kumpulan-tunggal
        b.   Reka bentuk kumpulan-setara
        c.   Reka bentuk ujian-anchor
        d.   Reka bentuk insan-umum


3.      Mengenal pasti Soalan Berat Sebelah.

Kini IRT kerap digunakan oleh para penyelidik untuk mengenal pasti
ujian yang mengandungi item-item yang berat sebelah. Ujian-ujian yang
dibina kerap kali mengandungi item-item yang berat sebelah tanpa
disedari. Kadangkala ujian yang ditadbirkan mengandungi item yang
dibina terkeluar daripada konstruk yang hendak diukur. Keadaan

                                 14
hazba
KPN2043
sebegini mungkin menguntungkan sesuatu pihak dan merugikan pihak
yang lain.

Terdapat dua tujuan utama melakukan kajian item yang berat-sebelah.
Menentukan sama ada skor ujian dipengaruhi oleh sumber variasi yang
berbeza dalam sampel yang berbeza. Jika didapati skor ujian itu benar-
benar dipengaruhi oleh sumber varian yang sama, maka kita perlu
melihat sama ada sumber-sumber itu memberi kelebihan kepada
sesuatu sampel pelajar.

Di sini dapat disimpulkan bahawa IRT dapat digunakan untuk
menentukan sama ada sesuatu soalan itu berat-sebelah antara lelaki
dengan perempuan, bandar dengan luar bandar, taraf ekonomi keluarga
dan sebagainya. Dalam penyelidikan item berat-sebelah, kaedah
menentukan antara bukti empirikal dari rumusan, bahawa sesuatu item
itu berat sebelah, istilah differential item functions (DIF) digunakan.

Sesuatu item itu dianggap berat-sebelah sekiranya pelajar-pelajar yang
mempunyai kebolehan yang sama, tetapi daripada kumpulan yang
berasingan, mempunyai kebarangkalian yang berbeza untuk
mendapatkan jawapan betul. Berdasarkan definisi di atas, kewujudan
DIF dalam kertas ujian boleh dikenal pasti secara membandingkan
fungsi ciri item daripada kedua-dua kumpulan berkenaan. Ini boleh
dilakukan dengan membandingkan parameter ICC yang digunakan bagi
kumpulan berkenaan, DIF wujud sekiranya ICC kedua-dua kumpulan itu
berbeza (Lord, 1980).

Kaedah kedua, ialah secara membandingkan ICC bagi kedua-dua
kumpulan itu dan menghitung keluasan yang wujud di antara kedua-dua
keluk itu. Jika keluasan di antara kedua-dua ICC itu sifar, ini
menunjukkan kedua-dua ICC itu bertindih, maka tidak wujud sebarang
DIF bagi item berkenaan. Ini menunjukkan item berkenaan tidak berat
sebelah.


4.      Ujian Padanan (Adaptive Testing)

Mengikut sejarahnya, penggunaan ujian padanan (UP) telah dirintis oleh
Binet dalam ujian kecerdasan dalam tahun 1908. Fred Lord melalui
kajian yang banyak dilakukannya pada penghujung tahun 60an
merasakan ujian bilangan item tetap kurang cekap bagi kebanyakan
pelajar, terutamanya pelajar pintar dan pelajar lemah. Beliau merasakan
panjang ujian boleh dipendekkan tanpa mengurangkan ketepatan
pengukurannya sekiranya item-item yang dipilih dijawab oleh pelajar

                                  15
hazba
KPN2043
mempunyai maklumat maksimum tentang kebolehan pelajar. Tanpa IRT
perkembangan UP mungkin terbantut.

Prosedur ujian padanan (adaptive testing) ialah satu cubaan untuk
memadankan kesukaran item dengan aras kebolehan pelajar. Ini
dirasakan perlu kerana item yang terlalu mudah atau terlalu sukar tidak
akan memberi apa-apa maklumat tentang kebolehan pendam
seseorang pelajar. kaedah ini dapat meninggikan lagi motivasi pelajar
dalam menjawab soalan ujian. Pelajar yang pintar tidak akan berasa
bosan kerana semua item yang diberikan mencabar pemikirannya.
Begitu juga sebaliknya, pelajar yang lemah tidak akan berasa putus asa,
kerana mereka tidak lagi diberikan dengan soalan yang sukar-sukar
untuk dijawab. Soalan yang setaraf dengan kebolehan mereka akan
dikemukakan untuk mengukur kebolehan pelajar berkenaan.

        Kini terdapat tiga jenis ujian padanan.

        a.    Ujian Aras fleksi

              Ujian ini mengandungi item yang disusun mengikut aras
              kesukarannya. Pelajar pada mulanya akan diberikan dengan
              item yang berkesukaran sederhana. Sekiranya pelajar gagal
              menjawabnya, soalan yang mudah sedikit akan
              dikemukakan selanjutnya. Seandainya jawapannya betul,
              soalan yang sukar sedikit akan dikemukakan. Kaedah ini
              diteruskan sehingga aras kebolehan pelajar dapat
              ditentukan. Apabila, Θ, kekal tetap (constant) setelah
              menjawab beberapa soalan berikutnya.

        b.    Dua-peringkat Ujian

              Mengandungi ujian penunjuk yang pendek dan beberapa
              ujian panjang di peringkat kedua. Skor pelajar dalam ujian
              penunjuk pendek digunakan untuk menentukan ujian
              panjang peringkat kedua yang manakah yang harus diambil
              selepas itu.

        c.    Ujian Penyesuaian

              Ujian yang dibina mengikut tahap pencapaian pelajar.

UP ini hanya dapat dilakukan dengan menggunakan model IRT.
Walaupun pelajar menjawab set soalan yang berbeza dari segi
kesukarannya, namun model IRT dapat memberikan satu rangka kerja

                                      16
hazba
KPN2043
untuk membandingkan anggaran kebolehan bagi pelajar yang berbeza.
Model IRT yang paling sesuai untuk UP ialah model 3-PLM (Lord,
1980). Fungsi maklumat item memainkan peranan yang kritikal dalam
UP. Item yang memberikan ketepatan yang maksimum dipilih untuk
dijawab oleh pelajar kerana item-item yang demikian mempunyai
kebarangkalian antara 0.5 ke 0.6 dijawab betul oleh pelajar.




Rujukan

    Bhasah Abu Bakar. (1996). An alternative algorithm in the
construction of weakly parallel tests using the IRT information functions.
Unpublished doctoral dissertation. Georgia State University, Atlanta.
    Birnbaum, A. (1968). Some latent trait models and their use in
inferring an examinee's ability. In F.M. Lord & M.R Novick, Statistical
theories of mental test scores (pp. 397 - 452), Reading, MA: Addison-
Wesley.
    Hambleton, R. K., & Swaminathan, H., (1985). Item response theory:
Principles and applications. Boston: Kluwer.
    Hulin., C. L., Drasgow, F., & Parson, C. K. (1983). Item response
theory. Homewood Ill,: Dow Jones-Irwin.
    Lord, F. M. (1980). Application of item response theory to practical
testing problem. Hillsdale, N.J: Erlbaum.
    Lord, F. M., & Novick, M. W. (1968). Statistical theories of mental test
scores. Reading, MA: Addison-Wesley.




                                    17
hazba

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:893
posted:2/5/2010
language:Malay
pages:17
norhashimi jusoh norhashimi jusoh mr academyforex2u.blogspot.com
About Hi, I’m Simee Jusoh and I create educ website to help other people to successful education learn. I started this in 2001. To contact me, please email