Docstoc

Reduksi Data

Document Sample
Reduksi Data Powered By Docstoc
					Reduksi Data
          IMD
Taxonomy

                         Agregasi




     Diskritisasi
                                              Seleksi
      & Konsep
                                              Atribut
       Hirarki
                         Reduksi
                          Data



              Kompresi               Aneka
                Data                Reduksi
Seleksi Atribut
 Tujuan : memilih subset (dari set data asli)
  atribut minimum yang dapat tetap menjaga
  peluang distribusi dari kelas data yang
  ditentukan oleh subset minimum, sedekat
  mungkin dengan peluang distribusi kelas
  data yang diberikan oleh set data asli.
 Keuntungan : mereduksi jumlah pola yang
  dihasilkan sehingga lebih mudah pula untuk
  dipahami
Metoda Heuristik
 Memilih berbagai kombinasi subset atribut
  dari set data asli.
 Masalahnya kombinasi subset yang mungkin
  sangat banyak yaitu
  dengan d = banyaknya jumlah
  atribut/variabel
 Memerlukan kriteria penghentian iterasi
  dalam mencari “subset minimum” beserta
  ambang batasnya.
Jenis Metoda Heuristik
 • Step-wise forward selection
 • Step-wise backward elimination
 • Combining forward selection and
   backward elimination
 • Decision-tree induction
Ranking Selection
 Setiap atribut diberi rangking dengan kriteria
  tertentu, misalkan correlation, mutual
  information,regresi
 Atribut dengan ranking tertinggi biasanya
  dianggap paling berpengaruh, sehingga ia
  akan diambil untuk masuk dalam proses data
  mining selanjutnya
Contoh Algoritma
 Handling Extremely Large Data
 Anytime Algorithm
 Stochastic Algorithm
Dimensi Reduksi
 Tujuannya : mentransformasi data, sehingga
  data asli menjadi lebih tereduksi ( kompresi).
  Data yang sudah direduksi kelak akan dapat
  direduksi, walau dalam keadaan “lossless”
  ataupun “lossy”
 Metoda yang paling terkenal : Wavelet
  Tranformation, Principal Component Analysis
  & Rough Set
Wavelet Transformation
 Merupakan salah satu teknik linear signal
 processing
 Data             ,
 ditransformasi menjadi    dimana
  merupakan vektor yang menggambarkan
  pengukuran pada data set dengan n atribut.
 Cocok untuk data numerik
Principal Component Analysis
(PCA)
 Menggunakan teknik aljabar linear
 Dikenal juga dengan teknik Singular Value
  Decomposition ( SVD)
 Tujuannya mencari k vektor ortogonal
  berukuran n, yang dapat digunakan untuk
  merepresentasikan data, dimana k≤ n
 Tidak memilih atribut namun membentuk
  “atribut baru”
Aneka Reduksi
 Tujuan : mereduksi volume data dengan
  berbagai alternatif ( di luar yang sudah
  disebutkan sebelumnya) sehingga dapat
  merepresentasikan data dalam volume yang
  lebih kecil
 Terbagi atas 2 metoda:
 ◦ Parametric
 ◦ Non Parametric
Parametric
 Membentuk model yang dapat
  menggambarkan data yang dimiliki, sehingga
  kita dapat menggunakan model tsb untuk
  mewakili data asli
 Contohnya : regresi linear,regresi multi linear,
  log reg,dsb
Regresi Linear
 Model :
 Nilai A dan B dapat diperoleh berdasarkan
  metoda kuadrat terkecil, sehingga diperoleh
  rumus sbb :




 n = banyaknya data
Non Parametric
 “Ringkasan data”
 Contoh :
 ◦   Histogram
 ◦   Clustering
 ◦   Sampling
Histograms




             Membagi data dalam kelompok-
             kelompok dan mencatat nilai
             rata-rata dari tiap kelompok


                                            15
Partitioning rules:

 Equal-width: equal bucket range
 Equal-frequency (or equal-depth)
 V-optimal: with the least histogram variance
  (weighted sum of the original values that each
  bucket represents)
 MaxDiff: set bucket boundary between each pair
  for pairs have the β–1 largest differences
Clustering

 Membagi data menjadi klaster-klaster berdasarkan
 “similarity” dan merepresentasikan data berdasarkan klaster
 tersebut, misalnya centroid dan diameternya.
 Sangat cocok untuk data yang memang “ada” klasternya,
 namun gagal untuk data yang sangat tersebar.
 Sudah ada teknik hirarkikal klasterisasi yang memungkinkan
 data direpresentasikan dalam struktur pohon multi dimensi.
 Contoh algoritma klasterisasi : K-Means, Buckshot, ROCK,
 CLIQUE , dsb



                                                               17

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:1
posted:10/31/2013
language:Unknown
pages:17