The Element of Statistical Learning Data Mining_ Inference and
Document Sample


Trevor Hastie, Robert Tibshirani
Jerome Friedman
The Element of Statistical Learning
Data Mining, Inference
and Prediction
Cluster Analysis and Self-Organizing Maps
Analiza skupień i metody SOM
Marta Leniewska
Przykład klasteryzacji
Reprezentacja danych x1, …, xN
Macierze podobieństwa D (N×N)
Symetryczne, dij 0, dii = 0,
Obiekty xi Rp
Różnica na atrybucie d j ( xij , xi ' j )
Atrybut ilościowy:
xij xi ' j ,
( xij xi ' j )2 , j ( xij xi ' j ) 2 2(1 ( xi , xi ' ))
Porządkowy: zamiana na ilościowy
Nominalny: macierze podobieństwa L (M×M) między
wartościami atrybutu
Różnice między obiektami
p p
D( xi , xi ' ) w j d j ( xij , xi ' j ), w j 1
j 1 j 1
Wpływ atrybutu Xj na D( xi , xi ' )
p
D wj d j (średnia różnica między obiektami)
j 1
błąd kwadratowy: d j 2 varj
var j - estymator Var(Xj) z próby
Równe wpływy atrybutów: w j 1 / d j
Wyróżnianie pewnych atrybutów
Brakujące wartości atrybutów: pomijanie, wprowadzanie,
nowa wartość zmiennej
Algorytmy kombinatoryczne
Ustalone z góry K < N klastrów
Cel: funkcja k = C(i) minimalizująca rozrzut wewn.
1 K
T d ii ' d ii '
= W(C) + B(C)
2 k 1 C (i )k C (i ')k C (i ) k
Ilość podziałów N danych na K klastrów
Liczba Stirlinga 2 rodz. S ( N , K ) k S ( N 1, k ) S ( N 1, k 1)
K k K
1 K
S(N, K ) (1) k N
k
K! k 1
S(10,4) = 34.105 S(19,4) 1010
Algorytmy znajdujące lokalne minima
Algorytm K średnich
Założenia: atrybuty ilościowe, miara zróżnicowania: kwadrat
odległości euklidesowej, Nk – ilość elementów klastra k
1 K K
W (C ) xi xi ' Nk xi xk
2 2
2 k 1 C (i ) k C ( i ') k k 1 C (i )k
K
Kryterium:min N k x
2
K i mk
C ,{ mk }1
k 1 C (i )k
Znaleźć min centra mk dla wybranych klastrów C
(średnie), koszt ~ (ilość elementów klastra)
Znaleźć min podział na klastry C
Do braku zmian C, zbiega do min lokalnego
Inne wersje K średnich
Wersja probabilistyczna: algorytm EM –
dopasowanie do modelu mieszaniny
rozkładów Gaussa.
Wersja ulepszona: żadna pojedyncza
zmiana przypisania obserwacji do klastra
nie polepszy wyniku.
Zastosowanie – kompresja
Podział na bloki po m pixeli – wektory w Rm
Aproksymacja bloków centrami klastrów
Obraz skompresowany: log2K na blok + mK
czyli log2K/8m oryginału
Lepiej przy zastosowaniu teorii Shannona
Działa bo wiele bloków wygląda tak samo
Miara deformacji obrazu - straty
Przykład
Sir Ronald A. Fisher K = 200, K = 4,
(1890-1962) m = 4, m = 4,
oryginał 0,239 oryginału, 0,063 oryginału,
Deformacja: 0,89 Deformacja: 16,95
Rozmyte K średnich
Rozmyty pseudopodział – rozmyty K podział
K N
P = {A1, ..., AK}
Ak ( xi ) 1, 0 Ak ( xi ) N
k 1 i 1
Przykład
N=3, K=2 1.0 • •
0.8
P = {A1, A2} 0.6 •
A1 = 0.6/x1 + 1/x2 + 0.1/x3 0.4 •
A2 = 0.4/x1 + 0/x2 + 0.9/x3 0.2
0.0 • •
x1 x 2 x3
Rozmyte K średnich N
w (k ) xi i
Centrum rozmytego klastra Ai mk i 1
N
wi ( k ) [ Ak ( xi )] v w (k )
i 1
i
v R, v > 1
Minimalizacja N K
J v ( P ) wi ( k ) xi mk
2
wskaźnika i 1 k 1
Znaleźć centra dla wybranych klastrów P(t-1)
Znaleźć podział na klastry P(t)
zmiana Ak(xi)
Kryterium stopu:
P ( t ) P ( t 1) max Ak t ) ( xi ) Ak t 1) ( xi )
( (
i ,k
xi1
x3 x15
C.d.
x6 x12
v 1, x2
x5 x7 x8 x9 x11 x14
uogólnienie K średnich
v , bardziej rozmyty x4 x10
zbieżny dla każdego
v (1, ) x1 x13
xi2
Przykład
K=2
v = 1,25
i
A1(xi
)
A2(xi)
Algorytm K medoidów
Medoid – element centralny
Uogólnienie K średnich na dowolne atrybuty i
odległości.
K
Kryterium: min K
C ,{ik }1
d
k 1 C ( i ) k
ii k
Znaleźć min centra xik dla wybranych klastrów C
(medoidy)
koszt dla klastra ~ (ilość elementów klastra)2
Znaleźć min podział na klastry C
Przykład K medoidów
12 krajów
K=3
USA, ISR, FRA, EGY, BEL
ZAI, IND, BRA
YUG, USS, CUB, CHI
Inna wersja – CLARA
Kilka (np. m = 5) próbek liczności 40+2K
Dla każdej próbki – minimalizacja bezp.
przez iteracyjne zmiany medoidów (PAM)
Koszt iteracji = O(K(N-K)2)
Wybór tego z m układów medoidów który
jest najlepszy dla wszystkich danych
Kwestie praktyczne
Wybór K* początkowych centrów
Podać centra lub indeksy lub koder C
Losowo lub krokowo minimalizując kryterium
Estymacja K*
Rozrzut w klastrach ~ 1/K
Rozrzut dla K<K* i dla K>K*
K* odpowiada zgięciu wykresu
Statystyka Gap
1,5
1,0
0,5
0,0
Metody hierarchiczne
Nie wymagają K, tylko miary odległości między
grupami obserwacji
Klastry na poziomie M tworzone przez łączenie
klastrów z poziomu M-1
Poziom min: N klastrów {xi}, poziom max: {x1, ..., xN}
Strategie aglomeracyjne i dzielące, N poziomów
Uporządkowany ciąg poziomów ~ podziałów
Wybór poziomu np. statystyka Gap
Dendrogram
Dendrogram jako opis danych
Ocena reprezentacyjności: wspólczynnik
korelacji między dii’ a Cii’
Cii
wysokość pierwszego wspólnego klastra
N różnych na N(N-1)/2
Cii’ <= {Cik, Ci’k} (trójkąty równoramienne)
Metody aglomeracyjne
Od singletonów, do 1 klastra
Miary odległości między klastrami G i H:
Single Linkage – najmniejsza odległość
d SL (G, H ) min d ii '
iG ,i 'H
Complete Linkage – największa odległość
d CL (G, H ) max d ii '
iG ,i 'H
Group Avarage – średnia odległość
1
d GA (G, H ) i d ii '
N G N H iG 'H
GA, CL, SL - dendrogramy
Przykład
Metody dzielące
Gdy chcemy otrzymać mało klastrów
Ciąg podziałów metodą K=2 średnich/medoidów
Zależy od początkowej konfiguracji w każdym kroku
Nie zawsze otrzymamy własność monotoniczności
Albo
Obiekt najbardziej odległy od reszty w klastrze G
do klastra H
Obserwacje bliższe H niż G: najbliższa H do H
Klaster do podziału – max średnica, lub średni rozrzut
wewnętrzny
Do singletonów lub nierozróżnialności w klastrach
Hierarchiczne metody rozmyte
Rozmyta relacja równoważności R na X2
R(x,x) = 1 R(x,y) = R(y,x) x,yX
R( x, z ) max min[ R( x, y), R( y, z )] x,zX
yX
-cut rozmytego zbioru A: A = {x | A(x) }
A(x)
0.4 •
0.2 •
0.0
x1 x2
0,2A = {x1, x2}, 0,4A = {x1}
Hierarchiczne metody rozmyte
R to crisp relacja równoważności – pary podobne
Znaleźć odpowiednią relację R
(lub relację kompatybilności i jej tranzytywne domknięcie)
p 1
R( xi , xi ' ) 1 ( xij xi ' j )
q q
j 1
gdzie q > 0, max R( xi , xi ' )
i ,i '
Tranzytywne domknięcie R to RT = R(n-1)
Przykład dla q=2
xi2
x3
x2 x4
x1 x5
xi1
Self-Organizing Maps
Wersja K średnich – prototypy na 1 lub 2 wymiarowej
rozmaitości w przestrzeni atrybutów, mapowanie
obserwacji na rozmaitość
Macierz K prototypów mj Rp,
o współrzędnych lj R2
Inicjalizacja – np. na płaszczyźnie wyznaczonej metodą
głównych składowych
Regularne rozmieszczenie prototypów na płaszczyźnie
Wyginanie płaszczyzny
Algorytm SOM
Znajdź mj najbliższy xi w Rp
Przesuń bliskich sąsiadów mj wg. lj do xi
mk mk ( xi mk )
Wskaźnik uczenia maleje od 1 do 0
Próg r maleje od R do 1
Albo: przesunięcie zależne od odległości do mj
mk mk h( l j lk )(xi mk )
Sąsiedztwo mj zawiera tylko mj K średnich
1. 3.
2.
SOM aproksymacją K średnich
2
Porównać błędy rekonstrukcji: x m j
Przykład: porównanie z K = 25 średnich
mj
w x
k k
wk
Zastosowanie
http://websom.hut.fi/websom
WEBSOM – rzutowanie
artykułów z newsgroup
wg. tematyki
artykuł jako wektor
wystąpień ustalonych
terminów
opcja zoom
Średnica zbioru punktów
• • •
• • •
•
•• • •
•
• • •
• •
Średnia zbioru punktów
• •
• •
•
• •
•
Medoid zbioru punktów
• •
• •
•
• •
•
Odległość międzygrupowa
Get documents about "