Format Peminjaman Kepada Bank - PDF
Description
Format Peminjaman Kepada Bank document sample
Document Sample


Penggunaan Pohon Keputusan untuk Data Mining
Indah Kuntum Khairina – NIM 13505088
Program Studi Teknik Teknik Informatika, Sekolah Teknik Elektro dan Informatika
Institut Teknologi Bandung, Jalan Ganesha 10, Bandung 40132
email: if15088@students.if.itb.ac.id
Abstract – Data mining merupakan proses ekstraksi sebuah bank untuk memprediksi pemohon mana yang
pengetahuan secara otomatis dari data berukuran besar aman dan mana yang beresiko untuk diberi pinjaman,
dengan cara mencari pola-pola menarik yang oleh manajer pemasaran di sebuah toko elektronik
terkandung di dalam data. Data mining memiliki untuk memprediksi apakah seorang pelanggan akan
banyak fungsionalitas di mana setiap fungsionalitas membeli komputer baru, atau oleh periset di bidang
akan menghasilkan jenis pola yang berbeda satu sama medis untuk memprediksi jenis pengobatan apa yang
lain. Klasifikasi adalah suatu fungsionalitas data cocok diberikan kepada seorang pasien dengan
mining yang akan menghasilkan model yang mampu penyakit tertentu. Pada kasus-kasus tersebut, model
memprediksi kelas atau kategori dari objek-objek di klasifikasi dibuat untuk memprediksi kelas ”aman”
dalam basisdata. Model klasifikasi dibuat dengan cara atau ”beresiko” untuk data permohonan pinjaman;
menganalisis training data. Model yang dihasilkan ”beli” atau ”tidak” untuk data pemasaran; dan
nantinya dapat digunakan untuk memprediksi kelas ”pengobatan-1”, ”pengobatan-2”, atau ”pengobatan-3”
dari unknown data. Model klasifikasi dapat untuk data medis.
digambarkan dalam berbagai bentuk, salah satunya
adalah dengan menggunakan pohon keputusan. Model klasifikasi dibuat dengan cara menganalisis
Attribute selection measures merupakan elemen yang training data (terdiri dari objek-objek yang kelasnya
sangat penting dalam pembangunan pohon keputusan. sudah diketahui). Model yang dihasilkan kemudian
Jenis attribute selection measures yang paling banyak akan digunakan untuk memprediksi kelas dari
digunakan adalah information gain, gain ratio, dan unknown data (terdiri dari objek-objek yang kelasnya
gini index. Sementara itu, pemangkasan pohon dapat belum diketahui). Model klasifikasi dapat
dilakukan untuk menghilangkan cabang-cabang tidak digambarkan dalam beberapa bentuk, seperti aturan
perlu yang terbentuk akibat adanya noise atau outlier klasifikasi (IF-THEN), pohon keputusan, rumus
pada training data. matematika, atau jaringan saraf tiruan. Pohon
keputusan banyak digunakan karena mudah dipahami
Kata Kunci: pohon keputusan, data mining, oleh manusia serta mampu menangani data beratribut
klasifikasi. banyak.
1. PENDAHULUAN 2. KLASIFIKASI
Kemudahan penyimpanan dan pengaksesan data oleh Klasifikasi adalah suatu fungsionalitas data mining
suatu aplikasi menyebabkan membengkaknya jumlah yang akan menghasilkan model untuk memprediksi
data yang tersedia. Sudah banyak orang yang kelas atau kategori dari objek-objek di dalam
menyadari bahwa data yang berukuran besar tersebut basisdata. Klasifikasi merupakan proses yang terdiri
sebenarnya mengandung berbagai jenis pengetahuan dari dua tahap, yaitu tahap pembelajaran dan tahap
tersembunyi yang berguna untuk proses pengambilan pengklasifikasian.
keputusan. Akan tetapi, pengetahuan akan sangat sulit
ditemukan dengan cara menganalisis data secara Pada tahap pembelajaran, sebuah algoritma klasifikasi
manual. Oleh karena itu, dilakukan data mining untuk akan membangun sebuah model klasifikasi dengan
mengekstraksi pengetahuan secara otomatis dari data cara menganalisis training data. Tahap pembelajaran
berukuran besar dengan cara mencari pola-pola dapat juga dipandang sebagai tahap pembentukan
menarik yang terkandung di dalam data tersebut. Data fungsi atau pemetaan y = f(X) di mana y adalah kelas
mining memiliki banyak fungsionalitas, antara lain hasil prediksi dan X adalah tuple yang ingin diprediksi
pembuatan ringkasan data, analisis asosiasi antar data, kelasnya. Pada makalah ini, fungsi atau pemetaan
klasifikasi data, prediksi, dan pengelompokan data. tersebut akan digambarkan dalam bentuk pohon
Setiap fungsionalitas akan menghasilkan pengetahuan keputusan.
atau pola yang berbeda satu sama lain.
Selanjutnya, pada tahap pengklasifikasian, model yang
Pada klasifikasi, akan dihasilkan sebuah model yang telah dihasilkan akan digunakan untuk melakukan
dapat memprediksi kelas atau kategori dari objek- klasifikasi terhadap unknown data. Akan tetapi,
objek di dalam basisdata. Sebagai contoh, klasifikasi sebuah model hanya boleh digunakan untuk klasifikasi
dapat digunakan oleh petugas peminjaman uang di jika akurasi model tersebut cukup tinggi. Akurasi
dapat diketahui dengan cara menguji model tersebut boleh sama dengan training data karena akan
dengan test data. Test data terdiri dari tuple-tuple menyebabkan pengujian tersebut menunjukkan
yang kelasnya sudah diketahui, namun test data tidak akurasi yang tinggi, padahal belum tentu demikian.
Gambar 1. Tahap pembelajaran
Gambar 2. Tahap pengklasifikasian
3. POHON KEPUTUSAN UNTUK KLASIFIKASI attribute selection measures dalam memilih kriteria
terbaik untuk mempartisi tuple-tuple data ke dalam
Pohon keputusan merupakan salah satu bentuk kelas-kelas berbeda. Kriteria tersebut meliputi
penggambaran model klasifikasi. Pada pohon splitting attribute, split point, maupun splitting subset.
keputusan, simpul dalam menyatakan pengujian Attribute selection measures akan dibahas pada
terhadap suatu atribut (digambarkan dengan kotak), upabab 3.2. Sementara itu, terlalu banyak cabang pada
cabang menyatakan hasil dari suatu pengujian suatu pohon keputusan mungkin mencerminkan
(digambarkan dengan panah yang memiliki label dan adanya noise (kesalahan pencatatan nilai) atau outlier
arah), sementara daun menyatakan kelas yang (penyimpangan nilai dari rentang seharusnya) pada
diprediksi (digambarkan dengan lingkaran). Contoh training data. Pemangkasan pohon dapat dilakukan
pohon keputusan untuk kasus permohonan pinjaman untuk mengenali dan menghapus cabang-cabang
dapat dilihat pada gambar 1 di atas. tersebut, sehingga diharapkan dapat meningkatkan
akurasi model klasifikasi. Pemangkasan pohon akan
Pada saat membangun pohon keputusan, digunakan dibahas pada upabab 3.3.
kriteria terbaik dalam mempartisi data dengan
3.1. Algoritma menggunakan attribute selection measures.
ID3 (Iterative Dichotomiser 3), C4.5 (suksesor ID3), Kemudian, simpul N dilabeli dengan splitting attribute
dan CART (Classification and Regression Trees) yang diperoleh dari Attribute_selection_method
merupakan beberapa contoh algoritma pembangunan dan sebuah cabang akan dibangkitkan untuk setiap
pohon keputusan. Ketiga algoritma tersebut pada hasil pengujian pada simpul N. Selanjutnya, tuple-
dasarnya memiliki karakteristik yang sama dalam tuple di D akan dipartisi sesuai dengan hasil pengujian
membangun pohon keputusan, yaitu top-down dan tersebut. Terdapat tiga skenario yang mungkin dalam
divide-and-conquer. Top-down artinya pohon mempartisi D. Misalkan A adalah splitting attribute
keputusan dibangun dari simpul akar ke daun, pada simpul N dan A memiliki sejumlah k nilai
sementara divide-and-conquer artinya training data berbeda {a1, a2, ..., ak} pada training data.
secara rekursif dipartisi ke dalam bagian-bagian yang
lebih kecil saat pembangunan pohon. Biner tidaknya (i) Jika A memiliki nilai-nilai yang diskrit, maka
pohon keputusan yang dihasilkan ditentukan oleh sebuah cabang akan dibentuk untuk setiap nilai A
attribute selection measures ataupun algoritma yang (sehingga total akan terbentuk sebanyak k
digunakan. Secara umum, algoritma pembangunan cabang). Partisi Di terdiri dari tuple-tuple pada D
pohon keputusan dapat dirangkum sebagai berikut. yang memiliki nilai ai untuk atribut A.
Selanjutnya, atribut A dihapus dari
Tabel 1. Algoritma Pembangunan Pohon Keputusan attribute_list.
(ii) Jika A memiliki nilai-nilai yang kontinu, maka
Algoritma: Generate_decision_tree hasil pengujian pada simpul N akan menghasilkan
Input: dua cabang, yaitu untuk A ≤ split point dan A >
• D = partisi data yang mula-mula terdiri dari split point. Split point merupakan keluaran dari
seluruh tuples pada training data. Attribute_selection_method sebagai bagian
• attribute_list = daftar atribut yang dimiliki dari kriteria untuk melakukan partisi. Selanjutnya,
oleh data. D dipartisi sehingga D1 terdiri dari tuple-tuple di
• Attribute_selection_method = prosedur mana A ≤ split point dan D2 adalah sisanya.
untuk menentukan kriteria terbaik dalam (iii) Jika A memiliki nilai-nilai yang diskrit dan pohon
mempartisi data ke dalam kelas-kelas. yang dihasilkan harus biner, maka bentuk
Output: Pohon keputusan. pengujian di simpul N adalah “A Є SA?” SA
(1) create node N; adalah splitting subset berupa upahimpunan dari
(2) if tuples in D are all of the same class, nilai-nilai A. Splitting subset diperoleh dari
C, then
(3) return N as a leaf node labeled with Attribute_selection_method sebagai bagian
the class C; dari kriteria untuk melakukan partisi. Pada
(4) if attribute_list is empty then umumnya, cabang kiri dilabeli dengan ”ya” dan
(5) return N as a leaf node labeled with
the majority class in D;
akan menghasilkan D1 berisi tuple-tuple yang
(6) apply Attribute_selection_method(D, memenuhi pengujian. Sebaliknya, cabang kanan
attribute_list) to find the best splitting dilabeli ”tidak” dan menghasilkan D2 berisi tuple-
criterion; tuple yang tidak memenuhi pengujian.
(7) label node N with splitting_criterion;
(8) if splitting_attribute is discrete-valued
and multiway splits allowed then
(9) attribute_list attribute_list –
splitting_attribute;
(10) for each outcome j of splitting_criterion
(11) let Dj be the set of data tuples in D
satisfying outcome j; Gambar 3. Jika atribut A di simpul uji bernilai diskrit.
(12) if Dj is empty then
(13) attach a leaf labeled with the
majority class in D to node N;
(14) else attach the node returned by
Generate_decision_tree(Dj,
attribute_list) to node N;
(15) endfor
(16) return N
Gambar 4. Jika atribut A di simpul uji bernilai kontinu.
Algoritma di atas dapat dijelaskan sebagai berikut.
Pada awalnya, pohon hanya memiliki sebuah simpul,
N, yang mewakili seluruh training data di D. Jika
seluruh tuples di D memiliki kelas yang sama, maka
simpul N diubah menjadi daun dan dilabeli dengan
nama kelas tersebut. Sebaliknya, jika tuple-tuple di D
Gambar 5. Jika atribut A di simpul uji bernilai diskrit dan
memiliki kelas yang berbeda-beda, maka dipanggil pohon keputusan yang dihasilkan harus biner.
Attribute_selection_method untuk menentukan
Algoritma akan melakukan proses yang sama secara sebuah tuple di D diberikan dengan rumus berikut.
rekursif terhadap setiap partisi yang dihasilkan. Proses
ini berakhir hanya jika salah satu dari kondisi berikut
dipenuhi.
di mana pi adalah peluang bahwa sebuah tuple di D
(i) Seluruh tuples di D memiliki kelas yang sama. memiliki kelas C. Nilai peluang ini dapat didekati
(ii) Tidak ada lagi atribut yang tersisa di dengan cara menghitung |Ci,D|/|D|. Info(D) hanyalah
attribute_list. Pada kasus ini, simpul N akan
jumlah rata-rata informasi yang dibutuhkan utk
diubah menjadi daun dan dilabeli dengan memprediksi kelas dari sebuah tuple. Informasi seperti
mayoritas kelas di D. ini hanya bergantung pada jumlah dan proporsi tuples
(iii) Tidak terdapat tuple di suatu cabang (Di kosong). dari tiap kelas.
Pada kasus ini, sebuah daun dibuat dan dilabeli
dengan mayoritas kelas di D. Pada saat akan mempartisi tuple-tuple di D terhadap
atribut A yang memiliki v nilai berbeda, jika A diskrit,
3.2. Attribute Selection Measures akan terbentuk sebanyak v hasil pengujian dan v
Attribute selection measure adalah sebuah pendekatan partisi di mana Dj adalah partisi yang terdiri dari
heuristik untuk memilih kriteria terbaik dalam tuple-tuple di D yang memiliki nilai aj untuk atribut A.
mempartisi training data ke dalam kelas-kelas. Idealnya, setiap partisi yang dihasilkan akan bersifat
Idealnya, setiap partisi yang dihasilkan harus bersifat pure. Namun pada kenyataannya, partisi yang
pure, yang artinya, seluruh tuples yang berada di dihasilkan sering impure. Oleh karena itu, setelah
dalam suatu partisi harus memiliki kelas yang sama. partisi dilakukan, masih dibutuhkan informasi untuk
Oleh karena itu, kriteria terbaik adalah kriteria yang memperoleh klasifikasi yang pure yang dapat diukur
mampu mempartisi data mendekati pure. Attribute dengan rumus berikut.
selection measure akan membuat ranking dari atribut-
atribut pada training data. Atribut yang berada pada
peringkat paling ataslah yang dipilih sebagai splitting
attribute. Jika splitting attribute bernilai kontinu,
maka split point juga akan didefinisikan. Jika splitting
attribute bernilai diskrit namun pohon keputusan yang
dibentuk harus biner, maka splitting subset akan InfoA(D) adalah informasi yang dibutuhkan untuk
didefinisikan. Terdapat tiga jenis attribute selection mengklasifikasi sebuah tuple di D berdasarkan hasil
measures yang banyak digunakan, yaitu information partisi di A. Semakin kecil jumlah informasi yang
gain, gain ratio, dan gini index. Pada makalah ini, dibutuhkan ini, semakin tinggi tingkat purity dari
hanya akan dijelaskan mengenai konsep ketiga jenis partisi yang dihasilkan.
measures, sementara contoh penggunaannya berada di
luar lingkup makalah ini dan dapat dilihat pada [2]. Information gain merupakan selisih antara kebutuhan
informasi awal (yang hanya bergantung pada jumlah
Notasi yang digunakan dalam upabab ini adalah dan proporsi tiap kelas di dalam D) dan kebutuhan
sebagai berikut. D merupakan partisi yang berisi informasi baru (yang diperoleh setelah melakukan
training data. Sebuah atribut yang menyatakan kelas partisi terhadap atribut A).
memiliki sejumlah m nilai berbeda, yang berarti
bahwa terdapat sebanyak m kelas yang terdefinisi, Ci
(i = 1, …, m). Ci,D menyatakan tuples di D yang
memiliki kelas Ci.
Gain(A) akan menginformasikan seberapa banyak
3.2.1 Information Gain informasi yang didapat dengan melakukan pembagian
Attribute selection measure jenis ini digunakan pada di A. Atribut dengan Gain(A) terbesar dipilih sebagai
ID3. Simpul N mewakili tuples di dalam D. Atribut splitting attribute di simpul N. Dengan kata lain,
dengan information gain tertinggi akan dipilih sebagai atribut yang terbaik adalah yang meminimalkan
splitting attribute pada simpul N. Atribut seperti ini jumlah informasi yang dibutuhkan untuk
diharapkan mampu meminimalkan informasi yang menyelesaikan klasifikasi dari seluruh tuple di D.
dibutuhkan untuk mengklasifikasi seluruh tuples di D
serta mencerminkan tingkat impurity yang rendah 3.2.2 Gain Ratio
pada partisi-partisi yang dihasilkan. Dengan kata lain, Pada uraian di atas, dapat dilihat bahwa information
jumlah pengujian yang dibutuhkan untuk gain lebih mengutamakan pengujian yang
mengklasifikasi sebuah tuple menjadi berkurang dan menghasilkan banyak keluaran. Dengan kata lain,
pohon keputusan yang dihasilkan pun menjadi lebih atribut yang memiliki banyak nilailah yang dipilih
sederhana. sebagai splitting attribute. Sebagai contoh, pembagian
terhadap atribut yang berfungsi sebagai unique
Informasi yg dibutuhkan untuk mengklasifikasi identifier, seperti product_ID¸ akan menghasilkan
keluaran dalam jumlah yang banyak, di mana setiap Misalkan A merupakan atribut bernilai diskrit yang
keluaran hanya terdiri dari satu tuple. Partisi semacam memiliki sejumlah v nilai berbeda, {a1, a2, ..., an}.
ini tentu saja bersifat pure, sehingga informasi yang Untuk menentukan kriteria pembagian terbaik
dibutuhkan untuk mengklasifikasi D berdasarkan terhadap A, seluruh upahimpunan dari A harus
partisi seperti ini adalah sebesar Infoproduct_ID(D) = 0. diperiksa. Setiap upahimpunan, SA, dapat dijadikan
Sebagai akibatnya, information gain yang dimiliki sebagai splitting subset untuk pengujian dalam bentuk
atribut product_ID menjadi maksimal. Padahal, jelas ”A Є SA ?”. Sebuah tuple memenuhi pengujian jika
sekali terlihat bahwa partisi semacam ini tidaklah nilai untuk atribut A pada tuple tersebut merupakan
berguna. bagian dari SA. Dengan tidak mempertimbangkan
himpunan kuasa dan himpunan kosong, maka akan
Algoritma C4.5 yang merupakan suksesor dari ID3 terdapat 2v – 2 cara untuk melakukan pembagian biner
menggunakan gain ratio untuk memperbaiki dari D.
information gain. Pendekatan ini menerapkan
normalisasi pada information gain dengan Pemeriksaan sebuah pembagian biner dilakukan
menggunakan apa yang disebut sebagai split dengan cara menjumlahkan impurity dari setiap partisi
information. yang dihasilkan oleh pembagian tersebut. Misalkan
sebuah pembagian yang dilakukan terhadap atribut A
mempartisi D menjadi D1 dan D2. Gini index dari D
dapat dihitung dengan rumus berikut.
Nilai ini menyatakan jumlah informasi yang
dihasilkan akibat pembagian training data ke dalam
partisi-partisi, berkaitan dengan pengujian yang
dilakukan terhadap atribut A. Untuk atribut bernilai diskrit, upahimpunan yang
memberikan nilai gini index terkecil untuk atribut A
akan dipilih sebagai splitting subset. Seluruh
pembagian biner yang mungkin terjadi pada suatu
atribut harus diperiksa.
Sementara untuk atribut bernilai kontinu, setiap split
Atribut dengan gain ratio maksimal akan dipilih
point yang mungkin harus diperiksa. Untuk nilai-nilai
sebagai splitting attribute. Perlu diperhatikan bahwa
suatu atribut yang telah diurutkan, titik tengah di
jika split information mendekati 0, maka perbandingan
antara setiap pasangan nilai yang saling berseberangan
tersebut menjadi tidak stabil. Oleh karena itu, perlu
dapat diambil sebagai sebuah split point. Titik yang
ditambahkan batasan untuk memastikan bahwa
memberikan nilai gini index terkecil untuk suatu
information gain dari sebuah pengujian haruslah
atributlah yang akhirnya diambil sebagai split point.
besar, dan minimal sama besar dengan information
gain rata-rata dari seluruh pengujian.
Penurunan tingkat impurity yang diperoleh dari
sebuah pembagian biner terhadap atribut A dapat
3.2.4 Gini Index
dihitung dengan rumus berikut.
Attribute selection measure jenis ini digunakan pada
algoritma CART. Gini index akan menghasilkan
pembagian yang bersifat biner pada setiap atribut, baik
yang memiliki nilai diskrit ataupun kontinu.
Atribut yang memaksimalkan penurunan tingkat
Gini index mengukur impurity dari suatu partisi, D, impurity inilah yang dipilih sebagai splitting attribute.
dengan rumus berikut. Atribut ini, bersama dengan splitting subset (jika
atribut tersebut bernilai diskrit) atau split point (jika
atribut tersebut bernilai kontinu) akan membentuk
kriteria pembagian.
di mana pi adalah peluang bahwa sebuah tuple di D
berada pada kelas Ci. Peluang tersebut dapat didekati
dengan hasil perhitungan |Ci,D|/|D| di mana. |Ci,D|
merupakan jumlah tuple pada D yang memiliki kelas
Ci dan |D| adalah jumlah seluruh tuple di D.
Perhitungan ini dilakukan untuk setiap kelas.
3.3. Pemangkasan Pohon
Gambar 6. Pohon keputusan sebelum dan setelah dipangkas.
Pada saat pembangunan pohon keputusan, banyaknya 2. Model klasifikasi dapat digambarkan dalam
cabang mungkin mencerminkan adanya noise atau bentuk pohon keputusan di mana simpul dalam
outlier pada training data. Pemangkasan pohon dapat menyatakan atribut penguji, panah menyatakan
dilakukan untuk mengenali dan menghapus cabang- hasil pengujian, dan daun menyatakan kelas hasil
cabang tersebut. Pohon yang dipangkas akan menjadi prediksi.
lebih kecil dan lebih mudah dipahami. Pohon 3. Pada dasarnya, algoritma pembangun pohon
semacam itu biasanya juga menjadi lebih cepat dan keputusan memiliki karakteristik yang sama, yaitu
lebih baik dalam melakukan klasifikasi terhadap top-down (pohon keputusan dibangun dari simpul
unknown data. Terdapat dua pendekatan utama dalam akar ke daun) dan divide-and-conquer (training
pemangkasan pohon: prepruning dan postpruning. data secara rekursif dipartisi ke dalam bagian-
bagian yang lebih kecil).
Pada pendekatan prepruning, sebuah pohon dipangkas 4. Attribute selection measures digunakan untuk
dengan cara menghentikan pembangunannya jika menentukan kriteria terbaik dalam membagi
partisi yang akan dibuat dianggap berada di bawah training data ke dalam kelas-kelas. Beberapa
batasan tertentu. Kesulitan terbesar pada pendekatan contoh attribute selection measures antara lain
ini adalah dalam menentukan batasan. information gain, gain ratio, dan gini index.
5. Pemangkasan pohon dapat dilakukan untuk
Pada pendekatan postpruning, upapohon dipangkas menghilangkan cabang-cabang tidak perlu yang
dari pohon dewasa. Upapohon dipangkas dengan cara terbentuk akibat adanya noise atau outlier pada
menghapus cabang-cabangnya serta mengubah training data.
upapohon tersebut menjadi sebuah simpul yang
dilabeli dengan kelas mayoritas pada upapohon
tersebut. DAFTAR REFERENSI
4. KESIMPULAN [1] Han, Jiawei, Micheline Kamber, Data Mining
Concepts and Techniques (2nd edition), Morgan
Kesimpulan yang dapat diambil dari pembahasan di Kaufmann, 2006.
dalam makalah ini adalah: [2] Munir, Rinaldi, Diktat Kuliah IF2151 Matematika
1. Klasifikasi adalah suatu fungsional data mining Diskrit (edisi keempat), Institut Teknologi
yang menghasilkan model untuk memprediksi Bandung, 2004.
kelas dari objek-objek pada basisdata.
Related docs
Other docs by cuu74057
GAMBARAN UMUM PROGRAM KREATIVITAS MAHASISWA PKM TIM PKM DP2M DIKTI DEPDIKNAS DITJEN DIKTI DITJEN DIKDASMEN DIT P2M SUBDIT PKM SUBDIT PENEL SU
Views: 166 | Downloads: 2
Quarterly update FY 2009 first quarter 16 January 16 2009 Agenda Introduction Glen Ponczak – Director Investor Relations Overview Steve Roell – Chairman and Chief Executi
Views: 146 | Downloads: 1
HAPPY FRIDAY Take out your vocab so I can check it and get ready to start a new unit Did you know In a random group of 23 people odds are that two will share the sa
Views: 52 | Downloads: 1
Get documents about "