The Element of Statistical Learning Data Mining_ Inference and

Document Sample
The Element of Statistical Learning Data Mining_ Inference and Powered By Docstoc
					    Trevor Hastie, Robert Tibshirani
           Jerome Friedman
 The Element of Statistical Learning
          Data Mining, Inference
             and Prediction

Cluster Analysis and Self-Organizing Maps
      Analiza skupień i metody SOM



            Marta Leniewska
Przykład klasteryzacji
Reprezentacja danych x1, …, xN
Macierze podobieństwa D (N×N)
    Symetryczne, dij  0, dii = 0,
Obiekty xi  Rp
Różnica na atrybucie d j ( xij , xi ' j )
    Atrybut ilościowy:
          xij  xi ' j ,
        ( xij  xi ' j )2 ,          j ( xij  xi ' j ) 2  2(1   ( xi , xi ' ))

    Porządkowy: zamiana na ilościowy
    Nominalny: macierze podobieństwa L (M×M) między
     wartościami atrybutu
Różnice między obiektami
                   p                                       p
D( xi , xi ' )   w j  d j ( xij , xi ' j ),            w     j   1
                  j 1                                    j 1
Wpływ atrybutu Xj na D( xi , xi ' )
    p
D   wj  d j             (średnia różnica między obiektami)
         j 1

 błąd kwadratowy: d j  2 varj
 var j - estymator Var(Xj) z próby
Równe wpływy atrybutów: w j  1 / d j
Wyróżnianie pewnych atrybutów
Brakujące wartości atrybutów: pomijanie, wprowadzanie,
nowa wartość zmiennej
Algorytmy kombinatoryczne
Ustalone z góry K < N klastrów
Cel: funkcja k = C(i) minimalizująca rozrzut wewn.
  1   K                                
T               d ii '   d ii ' 
                                           = W(C) + B(C)
  2 k 1 C (i )k  C (i ')k C (i ) k 
Ilość podziałów N danych na K klastrów
   Liczba Stirlinga 2 rodz. S ( N , K )  k  S ( N  1, k )  S ( N  1, k  1)

                           K k  K 
              1 K
    S(N, K )         (1)    k N
                                k
               K! k 1           
 S(10,4) = 34.105 S(19,4)  1010
Algorytmy znajdujące lokalne minima
Algorytm K średnich
Założenia: atrybuty ilościowe, miara zróżnicowania: kwadrat
odległości euklidesowej, Nk – ilość elementów klastra k
        1 K                                           K
W (C )     xi  xi '                              Nk                xi  xk
                                                2                                    2

        2 k 1 C (i )  k C ( i ')  k               k 1       C (i )k

                          K
Kryterium:min  N k               x
                                                            2
             K                              i    mk
             C ,{ mk }1
                          k 1   C (i )k

   Znaleźć min centra mk dla wybranych klastrów C
    (średnie), koszt ~ (ilość elementów klastra)
   Znaleźć min podział na klastry C
Do braku zmian C, zbiega do min lokalnego
Inne wersje K średnich
Wersja probabilistyczna: algorytm EM –
dopasowanie do modelu mieszaniny
rozkładów Gaussa.
Wersja ulepszona: żadna pojedyncza
zmiana przypisania obserwacji do klastra
nie polepszy wyniku.
Zastosowanie – kompresja
Podział na bloki po m pixeli – wektory w Rm
Aproksymacja bloków centrami klastrów
Obraz skompresowany: log2K na blok + mK
czyli log2K/8m oryginału
Lepiej przy zastosowaniu teorii Shannona
Działa bo wiele bloków wygląda tak samo
Miara deformacji obrazu - straty
   Przykład




Sir Ronald A. Fisher   K = 200,           K = 4,
(1890-1962)            m = 4,             m = 4,
oryginał               0,239 oryginału,   0,063 oryginału,
                       Deformacja: 0,89   Deformacja: 16,95
   Rozmyte K średnich
Rozmyty pseudopodział – rozmyty K podział
                     K                   N
P = {A1, ..., AK}
                     Ak ( xi )  1, 0   Ak ( xi )  N
                       k 1                i 1

Przykład
N=3, K=2                       1.0            •       •
                               0.8
P = {A1, A2}                   0.6    •
A1 = 0.6/x1 + 1/x2 + 0.1/x3    0.4    •
A2 = 0.4/x1 + 0/x2 + 0.9/x3    0.2
                               0.0           •        •
                                      x1     x    2   x3
Rozmyte K średnich                                  N

                                                   w (k ) xi       i
Centrum rozmytego klastra Ai              mk       i 1
                                                       N

    wi ( k )  [ Ak ( xi )] v                        w (k )
                                                     i 1
                                                                i

    v  R, v > 1
Minimalizacja              N    K
              J v ( P )   wi ( k ) xi  mk
                                                                2

wskaźnika                 i 1 k 1
    Znaleźć centra dla wybranych klastrów P(t-1)
    Znaleźć podział na klastry P(t)
     zmiana Ak(xi)
Kryterium stopu:
P ( t )  P ( t 1)  max Ak t ) ( xi )  Ak t 1) ( xi )  
                           (               (
                           i ,k
                          xi1

                                        x3                             x15
     C.d.
                                             x6                  x12

v  1,                                x2
                                             x5   x7   x8   x9   x11   x14
uogólnienie K średnich
v  , bardziej rozmyty                      x4                  x10
zbieżny dla każdego
v  (1, )                              x1                             x13

                                                                             xi2
Przykład
    K=2
    v = 1,25
                                  i

                                A1(xi
                                  )
                                A2(xi)
Algorytm K medoidów
Medoid – element centralny
Uogólnienie K średnich na dowolne atrybuty i
odległości.
                             K
Kryterium:           min       K
                       C ,{ik }1
                                    d
                                   k 1 C ( i )  k
                                                      ii k


  Znaleźć min centra xik dla wybranych klastrów C
  (medoidy)
   koszt dla klastra ~ (ilość elementów klastra)2
 Znaleźć min podział na klastry C
Przykład K medoidów
                12 krajów
                K=3
                USA, ISR, FRA, EGY, BEL
                ZAI, IND, BRA
                YUG, USS, CUB, CHI
Inna wersja – CLARA
Kilka (np. m = 5) próbek liczności 40+2K
Dla każdej próbki – minimalizacja bezp.
przez iteracyjne zmiany medoidów (PAM)
Koszt iteracji = O(K(N-K)2)
Wybór tego z m układów medoidów który
jest najlepszy dla wszystkich danych
Kwestie praktyczne
Wybór K* początkowych centrów
 Podać centra lub indeksy lub koder C
 Losowo lub krokowo minimalizując kryterium

Estymacja K*
 Rozrzut w klastrach ~ 1/K
 Rozrzut dla K<K* i dla K>K*

 K* odpowiada zgięciu wykresu
Statystyka Gap
                 1,5



                 1,0



                 0,5



                 0,0
Metody hierarchiczne
Nie wymagają K, tylko miary odległości między
grupami obserwacji
Klastry na poziomie M tworzone przez łączenie
klastrów z poziomu M-1
Poziom min: N klastrów {xi}, poziom max: {x1, ..., xN}
Strategie aglomeracyjne i dzielące, N poziomów
Uporządkowany ciąg poziomów ~ podziałów
Wybór poziomu np. statystyka Gap
Dendrogram
Dendrogram jako opis danych
Ocena reprezentacyjności: wspólczynnik
korelacji między dii’ a Cii’
Cii
 wysokość pierwszego wspólnego klastra
 N różnych na N(N-1)/2

 Cii’ <= {Cik, Ci’k} (trójkąty równoramienne)
Metody aglomeracyjne
Od singletonów, do 1 klastra
Miary odległości między klastrami G i H:
 Single Linkage – najmniejsza odległość
  d SL (G, H )  min d ii '
                iG ,i 'H
 Complete Linkage – największa odległość

  d CL (G, H )  max d ii '
                 iG ,i 'H
 Group Avarage – średnia odległość
                      1
  d GA (G, H )              i d ii '
                  N G N H iG 'H
GA, CL, SL - dendrogramy
Przykład
Metody dzielące
Gdy chcemy otrzymać mało klastrów
Ciąg podziałów metodą K=2 średnich/medoidów
   Zależy od początkowej konfiguracji w każdym kroku
   Nie zawsze otrzymamy własność monotoniczności
Albo
   Obiekt najbardziej odległy od reszty w klastrze G
    do klastra H
   Obserwacje bliższe H niż G: najbliższa H do H
   Klaster do podziału – max średnica, lub średni rozrzut
    wewnętrzny
   Do singletonów lub nierozróżnialności w klastrach
       Hierarchiczne metody rozmyte
       Rozmyta relacja równoważności R na X2
       R(x,x) = 1         R(x,y) = R(y,x)        x,yX
       R( x, z )  max min[ R( x, y), R( y, z )] x,zX
                    yX


       -cut rozmytego zbioru A:        A   = {x | A(x)  }
A(x)
   0.4          •
   0.2               •
   0.0
               x1    x2
       0,2A   = {x1, x2}, 0,4A = {x1}
Hierarchiczne metody rozmyte
R to crisp relacja równoważności – pary podobne  
Znaleźć odpowiednią relację R
(lub relację kompatybilności i jej tranzytywne domknięcie)
                              p             1

R( xi , xi ' )  1   ( xij  xi ' j )
                                        q   q

                          j 1

gdzie q > 0,     max R( xi , xi ' )
                     i ,i '



Tranzytywne domknięcie R to RT = R(n-1)
           Przykład dla q=2



xi2
                 x3




            x2        x4

      x1                   x5

                                xi1
Self-Organizing Maps
Wersja K średnich – prototypy na 1 lub 2 wymiarowej
rozmaitości w przestrzeni atrybutów, mapowanie
obserwacji na rozmaitość
Macierz K prototypów mj  Rp,
o współrzędnych lj  R2
Inicjalizacja – np. na płaszczyźnie wyznaczonej metodą
głównych składowych
Regularne rozmieszczenie prototypów na płaszczyźnie
Wyginanie płaszczyzny
Algorytm SOM
Znajdź mj najbliższy xi w Rp
Przesuń bliskich sąsiadów mj wg. lj do xi
mk  mk   ( xi  mk )
Wskaźnik uczenia  maleje od 1 do 0
Próg r maleje od R do 1
Albo: przesunięcie zależne od odległości do mj
mk  mk    h( l j  lk )(xi  mk )
Sąsiedztwo mj zawiera tylko mj  K średnich
1.        3.




     2.
SOM aproksymacją K średnich
                                       2
Porównać błędy rekonstrukcji: x  m j
Przykład: porównanie z K = 25 średnich




                                  mj   
                                         w x
                                            k   k

                                           wk
      Zastosowanie
http://websom.hut.fi/websom
WEBSOM – rzutowanie
artykułów z newsgroup
wg. tematyki
   artykuł jako wektor
    wystąpień ustalonych
    terminów
   opcja zoom
Średnica zbioru punktów


            • •    •
        •         • •
       •
          •• •          •
       •
    •       • •
      • •
Średnia zbioru punktów


                         •           •
                 •   •
                                 •

                •    •
                             •
Medoid zbioru punktów


                        •           •
                •   •
                                •

               •    •
                            •
Odległość międzygrupowa

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:4
posted:7/24/2012
language:English
pages:37