Principal Components Analysis (PCA)

Document Sample
Principal Components Analysis (PCA) Powered By Docstoc
					                                                                                     1


                Principal Components Analysis (PCA)
                         Udin Suchaini / suchaini@gmail.com



       Principal Components Analysis (PCA) merupakan teknik statistik multivariate,
dalam rangka eksplorasi untuk menyederhanakan data set yang kompleks (Basilevsky
1994, Everitt & Dunn 1992, Pearson 1901). Mengingat banyaknya pengamatan (sebesar
p) pada n variabel, oleh karena itu tujuan PCA adalah untuk mengurangi dimensi dari
matriks data dengan mencari variabel r baru, di mana r kurang dari n. Disebut
komponen utama, variabel-variabel r baru yang terbentuk sebanyak varians dalam n
variabel asli, tetap saling berkorelasi dan ortogonal. Setiap komponen utama adalah
kombinasi linear dari variabel asli, dan sehingga dapat menangkap makna komponen
yang mewakili-nya.
      Untuk menghitung komponen utama, nilai eigen dan vektor eigen dari n variabel
yang berhubungan dihitung dari matriks kovarians dengan kondisi n x n. Setiap
eigenvector mendefinisikan komponen utama. Sebuah komponen dapat dilihat sebagai
jumlah tertimbang dari kondisi, dimana koefisien dari vektor eigen merupakan bobot.
Proyeksi gen i sepanjang sumbu didefinisikan oleh komponen j th pokok:




       Varians yang dicatat oleh masing-masing komponen adalah terkait dengan nilai
eigen. Nilai itu adalah varian dari komponen atas semua data set. Akibatnya, vektor
eigen dengan nilai eigen besar adalah orang-orang yang berisi sebagian besar informasi,
vektor eigen dengan nilai eigen kecil tidak informatif.
        Dalam hal menggunakan prosedur Principal Component Analysis (PCA) salah
satunya untuk mengatasi multikolinearitas. Prosedur PCA pada dasarnya bertujuan
untuk menyederhanakan variabel yang diamati dengan cara mereduksi dimensinya. Hal
ini dilakukan dengan cara menghilangkan korelasi diantara variabel bebas melalui
transformasi variabel bebas asal ke variabel baru yang tidak berkorelasi sama sekali.
      Teknik PCA adalah cara untuk mengidentifikasi pola-pola dalam data, dan
mengungkapkan data sedemikian rupa untuk menyorot persamaan dan perbedaan.
Karena pola dalam data dapat sulit untuk menemukan dalam data berdimensi tinggi, di
mana representasi grafis tidak tersedia. PCA adalah alat yang ampuh untuk menganalisis
data.
       Mengingat matriks data dengan variabel p dan sampel n, data yang pertama
berpusat pada cara masing-masing variabel. Ini akan memastikan bahwa awan data
berpusat pada asal-usul komponen utama kami, tetapi tidak mempengaruhi hubungan
spasial dari data maupun varians bersama variabel kami. Komponen-komponen utama
pertama (Y1) diberikan oleh kombinasi linear dari variabel X1, X2, . . . Xp.



Teori – suchaini 2012
                                                                                        2

Atau dalam rotasi matriks:



       Komponen Utama I dihitung sedemikian rupa sehingga account untuk varians
terbesar mungkin dalam kumpulan data. Tentu saja, orang bisa membuat varian dari Y 1
sebagai besar mungkin dengan memilih nilai yang besar untuk, bobot a 11 a12 ... a1p. Untuk
mencegah hal ini, bobot dihitung dengan kendala bahwa jumlah kuadrat adalah 1.



       Komponen Utama II dihitung dengan cara yang sama, dengan kondisi bahwa itu
tidak berkorelasi dengan (misalnya, tegak lurus) komponen utama pertama dan bahwa
account untuk varian tertinggi berikutnya.


       Terus dilanjutkan sampai dengan total komponen utama p telah dihitung, sama
dengan jumlah variabel asli. Pada titik ini, jumlah varians dari semua komponen utama
akan sama dengan jumlah varians dari semua variabel, yaitu semua informasi yang asli
telah dijelaskan atau dipertanggungjawabkan. Secara kolektif, semua transformasi dari
variabel asli untuk komponen utama adalah:


       Menghitung transformasi ini atau bobot membutuhkan komputer untuk semua
semua matriks terkecil. Baris matriks A disebut vektor eigen dari matriks Sx, matriks
varians-kovarians dari data asli. Unsur-unsur dari vektor eigen merupakan bobot aij, dan
juga dikenal sebagai beban.
       Elemen-elemen dalam diagonal matriks Sy, matriks varians-kovarians dari
komponen utama, yang dikenal sebagai nilai eigen. Nilai eigen atau eigenvalue ini adalah
perbedaan dijelaskan oleh masing-masing komponen utama, dan untuk mengulang,
yang dibatasi dalam rangka mengurangi monoton dari komponen utama pertama
sampai terakhir. Ini eigenvalues biasanya diplot pada plot scree untuk menunjukkan
tingkat penurunan di mana varians dijelaskan oleh komponen utama tambahan.




       Posisi pengamatan masing-masing dalam sistem koordinat baru komponen
utama yang disebut skor dan dihitung sebagai kombinasi linear dari variabel asli dan a ij
bobot. Misalnya, skor untuk sampel rth pada komponen utama kth dihitung sebagai:

Teori – suchaini 2012
                                                                                       3




       Dalam menafsirkan komponen utama, seringkali berguna untuk mengetahui
korelasi dari variabel asli dengan komponen utama. Korelasi variabel X i dan komponen
utama Yj adalah:




       Karena pengurangan dimensi fokus pada beberapa komponen utama
dibandingkan banyak variabel, yang merupakan tujuan dari analisis komponen utama,
beberapa kriteria telah diusulkan untuk menentukan berapa banyak Principle
Component (PC) harus diselidiki dan berapa banyak yang harus diabaikan. Salah satu
kriteria yang umum adalah mengabaikan komponen utama pada titik di mana PC
berikutnya menawarkan sedikit peningkatan total varian yang menjelaskan dimensi.
Kriteria kedua adalah untuk memasukkan semua PC hingga varians persen yang telah
ditetapkan sebesar menjelaskan, seperti 90%. Sebuah standar ketiga adalah
mengabaikan komponen yang perbedaan dijelaskan kurang dari 1 ketika matriks
korelasi digunakan atau kurang dari varians rata-rata, menjelaskan ketika matriks
kovarians digunakan, dengan gagasan bahwa seperti PC menawarkan bernilai kurang
dari satu variabel informasi. Sebuah standar keempat adalah mengabaikan PC yang
terakhir perbedaan dijelaskan adalah semua kurang lebih sama.
       Komponen utama adalah setara dengan regresi sumbu utama (major axis
regressions). Dengan demikian, analisis komponen utama tunduk pada pembatasan yang
sama seperti regresi, di normalitas multivariat tertentu. Distribusi dari masing-masing
variabel harus diperiksa untuk normalitas dan mengubah digunakan jika diperlukan
untuk memperbaiki derajat kemiringan tinggi pada khususnya. Outlier harus dihapus
dari kumpulan data karena mereka dapat mendominasi hasil analisis komponen utama.




Basilevsky, A. 1994. Statistical Factor Analysis and Related Methods, Theory and
Referensi

                 Applications. John Wiley and Son, Inc., New York
Everitt, B.S & Dunn, G. (1992). Applied multivariate data analysis. New York : Oxford
                 University Press.
Pearson, Karl, 1901. On lines and planes of closest fit to systems of points in space,
                 Philosophical Magazine, Series 6, vol. 2, no. 11, pp. 559-572. [Cited by
                 383] (3.64/year)
Legendre, P., and L. Legendre, 1998. Numerical Ecology. Elsevier: Amsterdam, 853 p.
Swan, A.R.H., and M. Sandilands, 1995. Introduction to Geological Data Analysis.
                 Blackwell Science: Oxford, 446 p.
Holand, Steven M. 2008. Principal Components Analysis (PCA). epartment of Geology,
                 University of Georgia, Athens, GA 30602-2501




Teori – suchaini 2012