Lecture by sanmelody

VIEWS: 8 PAGES: 64

									                                          Vorlesung 10

               Unüberwachtes Lernen II


                                                 Martin Giese

                                   Martin.giese@tuebingen.mpg.de

M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                   14 December 2002
 Übersicht


                     Diskriminanzanalyse
                     Lernen spärlicher Repräsentationen
                     Nichtnegative Matrixfaktorisierung
                     Independent Component Analysis (ICA)
                     Lernen von Mannigfaltigkeiten




M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                               14 December 2002
                      I. Diskriminanzanalyse




M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                               14 December 2002
                                                                (z.B. McLachlan & Krishnan, 1996;
Kanonische Variaten                                                       Ripley, 1996)


      Bekannt auch als Fisher’s lineare Diskriminanten

      Ziel: Konstruktion von Richtungen, die günstig für
      Klassifikation sind ⇒ Nutzung der Klassenlabel

      Gegeben: Daten xi und Zughörigkeit zu g verschiedenen
      Klassen

      Problem: Finden von Richtungen im Datenraum, die

      – Varianz zwischen Klassen maximieren

      – Varianz innerhalb der Klassen maximieren
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                             14 December 2002
Kanonische Variaten
      Mittelwerte innerhalb einer Klasse µi
                                   1 g
      Mittelwert aller Klassen: µ = ∑µi
                                   g i=1
      Kovarianzmatrix zwischen den Klassen:
                          1 g
                      C=     ∑
                         g −1 i=1
                                  (µi − µ)(µi − µ)T


      Kovarianzmatrix innerhalb einer Klasse Σ (hier als gleich
      angenommen für alle Klassen)



 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Kanonische Variaten
      Sei n ein Richtungsvektor, dann definiert y=nTx ein
      Merkmal entlang einer Richtung im Datenraum

      Eine optimale Merkmalsrichtung ist gegeben durch
      die Bedingung
                                   n T Cn Varianz zwischen den Klassen
                    n* = arg sup T       =
                              n ≠0 n Σn    Varianz innerhalb der Klasse n
       Der Vektor n kann beliebig skaliert werden, z.B. so
      dass nTΣn = 1.



 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                      14 December 2002
Kanonische Variaten
      Optimierungsproblem:
      minimiere nTCn unter der NB nTΣn = 1

      Lagrange-Funktion: L ( n , λ ) = n T Cn + λ ( n T Σ n − 1)

      Optimalitätsbedingung:

        ∂L ( n , λ )
                     = Cn + λ Σ n = 0 Verallgemeinertes Eigenvektorproblem
           ∂n

      Normales Eigenvektor-Problem, falls Σ invertierbar; sonst
      spezielle numerische Techniken (→ MATLAB; Golub & van Loan,
      1989)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                   14 December 2002
Kanonische Variaten
      Nach Bestimmung der “besten Richtung”
      Iteration: nächste dazu orthogonale Richtung
      finden, usw.

      Falls Σ invertierbar ist, wieder einfach die
      grössten Singulärwerte nehmen




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
“Fisher-Gesichter”                                              (Belhumeur et al., 1997)

      Vergleich: “Eigen-Gesichter” vs. “Fisher-
      Gesichter”

      Yale + Harvard Gesichtsdatenbasen

      Beleuchtungsvariationen, verschiedene
      Gesichtsaudrücke, Verdeckungen




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                       14 December 2002
“Fisher-Gesichter”                                               (Belhumeur et al., 1997)




 Beleuchtung: normal                                            extrem 1      extrem 2

                      Klassifikation von Gesichtern

                      Fisher-Gesichter (FG) mehr robust gegen
                      Beleuchtungsvariationen
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                         14 December 2002
“Fisher-Gesichter”                                              (Belhumeur ert al., 1997)




                                                                       FG weniger sensitiv
                                                                       gegen Variation des
                                                                       Gesichtsausdruckes



 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                       14 December 2002
                                                                (Belhumeur et al., 1997)
“Fisher-Gesichter”
                                                                            Fisher-Gesicht für
                                                                               Brillenträger




           FG robust gegen Verdeckungen durch Brille


 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                       14 December 2002
“Fisher-Gesichter”                                              (Belhumeur et al., 1997)




                      Fisher-Gesichter nicht abhängig von Zahl
                      der Hauptkomponenten


 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                       14 December 2002
                         II. Lernen spärlicher
                           Repräsentationen



M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                               14 December 2002
Approximation durch Basisfunktionen

      Ziel: Repräasentation von Bildern I(x, y) durch
      Basisfunktionen gk(x, y)

      Bide enspricht Linearkombination der Basisfunktionen:
                                                K
                             I ( x, y) = ∑wk gk ( x, y)
                                               k =1


      Gewichte wk werden für jedes Bild neu geschätzt

      Basisfindungsproblem: Bestimme die optimalen gk(x, y),
      so dass Bilder im Mittel gut approximiert werden.
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Wörterbuch (dictionary)

      Bilder I(x, y) sind Zufallsvariable

      Die Funktionen gk(x, y), 1 ≤ k ≤ K, definieren ein
      Wörterbuch (dictionary)

      Ziel: Wörter sollten vollständigen Code liefern, und einen
      Code mit minimaler Redundanz

      Annahme: Bilder können durch Kombination weniger
      Wörter dargestellt werden (Spärlichkeit)



 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Spärlichkeit

      Minimale Redundanz:

      – gk orthogonal und erklären maximale Varianz;
             paarweise dekorrelierte Gewichte:
             E{wk wl} = E{wk } E{ wl} für k ≠ l ⇒ PCA
             → nur Statistik 2. Ordnung modellierbar

      – Nur wenige Gewichte wk ≠ 0 ⇒ spärliche Kodierung
             → auch Statistik höherer Ordnung modellierbar



 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Lernalgorithmus
      Spärlichkeitsmass: Funktion S(w), die
      für grosse w immer langsamer ansteigt
                                                                                                − w2
      ⇒ Lösungen mit vielen kleinen Gewichten bestraft S ( w) = −e
                                                       S ( w) = log(1 + w2 )
      Minimierung des Kostenfunktionals:
                                                                 K          2             K
   L[w, g1 ,..., g K ] =                ∫     I ( x, y ) − ∑ wk g k ( x, y ) d( x, y ) + λ ∑ S ( wk )
                                       x, y                      k =1                    k =1



                                                                Approximation       Spärlichkeit
       λ bestimmt Trade-off zwischen Spärlichkeit und Approx.

      Vgl. Regularisierung !!!
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                14 December 2002
Lernalgorithmus


      Die Bilder I(x, y) und die Gewichte wk sind Zufallsvariable

      Minimierung durch stochastischen Gradientenabstieg:

      1. Für jedes Bild Optimierung der Gewicht

      2. Gemittelt über viele Bilder Optimierung der
             Basisfunktionen




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Optimierung der Gewichte

      Annahme: Bild I(x, y) konstant

      Kostenfunktion kompakt geschrieben:
                                                        2
            L[ w, g1 ,..., g K ] =     ∫
                                       x, y
                                              I ( x, y ) d ( x, y ) − 2 w T   ∫ I ( x , y )g ( x , y ) d ( x , y )
                                                                              x, y
                                                                                     K
                       +w   T
                                ∫ g ( x , y )g
                                                  T
                                                      ( x, y )d( x, y ) w + ∑ S ( wk )
                                x, y                                                 k =1


      Zeitliche Änderung in Richtung des Abfalls von L:
                    1 ∂L
               & =−
               w         = b − Cw + S ' ( w ) mit
                    2 ∂w

                       b=       ∫ I ( x, y)g( x, y)d( x, y)
                                x, y
                                                                                            C = ∫ g( x, y )gT ( x, y )d( x, y)
                                                                                                 x, y

 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                                         14 December 2002
Optimierung nach den Basisfunktionen
                                  K
      Sei I ( x, y) = ∑wk gk ( x, y) das rekonstruierte Bild.
          ˆ            ˆ
                                 k =1
      Über die Bilder gemittelte Kostenfunktion:
                                                                                         unabhängig
                                                       2                  K              von g(x,y)
           L =       ∫ I ( x, y) − Iˆ( x, y)               d ( x, y ) +   ∑ S (w )
                                                                          k =1
                                                                                 k
                    x, y



      (langsame) zeitliche Änderung in Richtung des Abfalls von
      <L>:
                           τ g k ( x, y ) = −
                             &
                                                ∂ L
                                              ∂gk ( x, y )
                                                                                ˆ    (
                                                           = −2 wk I ( x, y ) − I ( x, y )      )
  Zeitkonstante
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                              14 December 2002
Interpretation als Neuronales Netz
                                                           wk




                             gk(x, y)

                     ˆ
                     I ( x, y)

                    I(x, y)



 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Experimente
      Natürliche Bilder: Land-
      schaftsaufnahmen 512 x 512
      Pixel

      Hohe Ähnlichkeit der lokalen
      Bildstatistik

      Vorfilterung (pre-whitening)

      Unterfenster 12 x 12 Pixel

      Zufällig gewählte Ausschnitte

      Ca. 200.000 Trainingsbilder



 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Spärliche Codierung                                              Lokalisierte Filter (“Rezeptive
                   ˆ
                   gk ( x, y)
                                                                 Felder”)

                                                                 Veschiedene Frequenzbänder

                                                                 Verschiedene Ortslokalisation

                                                                 Paramter ähnlich kortikalen
                                                                 Neuronen



                                                                „Simple cells“, Visueller Kortex




                               (Olshausen & Field,1996)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                   (Daugman, 1989)         14 December 2002
PCA

                                                               PCs geordnet nach
                                                               Varianz

                                                               Keine Lokalisierung !

                                                               Ordnung nach
                                                               Frequenzbändern
   (Olshausen &
    Field,1996)




M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                            14 December 2002
Spärliche Aktivitätsverteilungen
                                                                Probabilistische Interpretation: P ~ e-S(w)

                                                                Gewichte mit |w| klein sind sehr
                                                                wahrscheinlich !

                                                                Hohe Kurtosis (Peak bei Null und starke
                                                                seitliche Ausläufer der Verteilung):




                                            wi




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                   14 December 2002
              III. Nichtnegative
          Matrixfaktorisierung (NMF)



M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                               14 December 2002
Lernen von Objektteilen
      Viele natürliche Objekte bestehen aus Teilen

      Ziel: unüberwachtes Lernen von Teilen

      Teile als “Wörterbuch” (Augen, Mund, …)

       Bilder I(x, y) repräsentiert durch Basisfunktionen gk(x, y)
                                                  K
                                I (x, y) = ∑wk gk (x, y)
                                                 k =1


      Einschränkung: Gewichte nie negativ: wk ≥ 0

      Analog zu neuronaler Aktivität

 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Matrixfaktorisierung

           Gegeben: Datenmatrix X = [x1, …, xL] mit xij ≥ 0
           (Helligkeitswerte positiv oder Null)

           Ziel: Faktorisierung der Datenmatrix in der Form


                                             X=UW                 d.h. xi = U wi

                              Basisbilder /                     Gewichte
                              Prototypen


 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                   14 December 2002
Matrixfaktorisierung
      Durch verschiedene NB für U und W ergeben sich
      verschiedene Lernverfahren:

      1. wi Einheitsvektoren ⇒ Vektorquantisierung

      2. Spalten von U orthonormal; Zeilen von W orthogonal
             ⇒ PCA

      3. Alle Einträge von U und W nichtnegativ
             ⇒ Nichtnegative Matrixfaktorisierung
                    → Keine Kompensation positiver und negativer
                            Terme möglich !
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Generatives Modell
                                      ˆ
      Approximation der Bildmatrix X: X = UW

      Probabilistisches generatives Modell für die Bilder
       ˆ
       X ist eine Zufallsvariable

                       w1                                       wL

             U



               x1                                                    xN
                                 E{x} = Uw
                                                                          (Lee & Seung, 1999)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                14 December 2002
Kostenfunktion
      Optimales generatives Modell minimiert Abweichung
                     ˆ
      zwischen X und X
                                                        ˆ
      Divergenz (unsymmetrische Distanz) zwischen X und X:

                       ˆ ) = ∑  x log xmn − x + x 
                 D( X, X           mn           ˆmn 
                                      ˆ
                                       xmn
                                              mn     
                             m ,n                   

      Entspricht Kullback-Leibler-Divergenz falls

                            ∑x
                            m ,n
                                     mn   = ∑ xmn = 1 (Verteilung)
                                              ˆ
                                               m ,n
      Minimierung unter den Nebenbedingungen uij , wij ≥ 0
              ˆ
      Annahme X poissonverteilt
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                     14 December 2002
Lernalgorithmus
      Iteration mit multiplikativen Updates

      Abwechselnd U und W optimiert
                             xmq
          umn ← umn ∑ wnq
                    q     (UW)mq
                              xqn
          wmn ← wmn ∑ uqm
                     q     (UW) qn

      Zusätzlicher Normalisierungschritt (sonst unterbestimmt)
                               umn ←           umn
                                              ∑ uqm
                                              q

                                              ˆ
      Konvergenz kann bewiesen werden ( D( X, X ) nimmt
      immer ab, es sei denn lokales Minimum erreicht.)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Resultate

      2429 Gesichtsbilder

      19 x 19 pixel

      49 Basisbilder U

      Ca. 500 Iterationen

      Nur NMF liefert lokalisierte
      Komponenten !!!

      Spärlichkeit bei NMF !

                                                                U                w        x
 M. Giese: Lernmethoden in Computervision und Computer Grafik   (Lee & Seung, 1999)
                                                                                      14 December 2002
Anwendung auf Wörter


      30991 Wörter aus Grolier-
      Enzyklopädie

      200 semantische Merkmale

      Finden von “Wortfeldern”                                      w
                                                                           x
      als Komponenten
                                                                U




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                        14 December 2002
           IV. Independent Component
                  Analysis (ICA)



M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                               14 December 2002
Problembeschreibung
      Generatives Modell: Datenvektoren ergeben sich durch
      lineare Überlagerung von Quellensignalen zk:

                                                     K
                                       x =         ∑k =1
                                                            w k z k = Wz

      Annahme: Quellensignale zk statistisch unabhängig, d.h.

                            p(z) = p(z1) ⋅ p(z2 ) ⋅ ⋅ ⋅ p(zK )

      Gesucht: Quellensignale z und Mischmatrix W
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                           14 December 2002
Anwendung: Quellenseparation bei
“Cocktailparty-Problem”
                                                                      Viele unabhängige
       z2                                                             Quellen
                                                       z3
                                                                      Gemeinsames
                                                                      Signal



                                        W                                   z4
z1



                                                                    Ziel: Separation der
                                                                x
                  (Gerstner, 2001)
                                                                    einzelnen Quellen zi
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                    14 December 2002
 Blinde Quellenseparation
 (bind source separation)

                                                                                                 z1

Quellensignale
                                                                                                 z2




                                                                                                 x1

    Daten

                                                                                                 x2

  M. Giese: Lernmethoden in Computervision und Computer Grafik   (Hyvärinen & Oja, 2000)
                                                                                           14 December 2002
 Blinde Quellenseparation
 (bind source separation)

                                                                                                 z1

Quellensignale
                                                                                                 z2



                                                                                                ˆ
                                                                                                z1
Rekonstruierte
Quellensignale
                                                                                                ˆ
                                                                                                z2

  M. Giese: Lernmethoden in Computervision und Computer Grafik   (Hyvärinen & Oja, 2000)
                                                                                           14 December 2002
Schätzung der Mischmatrix
      Wenn die Mischmatrix W invertierbar ist gilt mit V = W-1

                                       z = Vx = W − 1x
      d.h. die Quellen sind ein lineare Transformation der
      Signale

      Die Mischmatrix V muss geschätzt werden.

      Wegen x = Wz ergeben sich folgende Mehrdeutigkeiten:

      – Skalierung der zi unbestimmt.

      – Die zi können beliebig permutiert werden.
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Gaussche Verteilungen
    Annahme: Daten (durch Abziehen des Mittelwertes und
    Skalierung) vorher so transformiert dass sie unkorreliert
    sind und Varianz 1 in alle Richtungen haben.

    Für zwei Dimensionen folgt:



    Vollständige Symmetrie ⇒
    keinerlei Information über die Dimensionen zi
     ⇒ ICA Problem nicht eindeutig lösbar für gausssche
    unabhängige Komponenten
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
ICA Algorithmen
    Idee: Maximierung der Information über Quellenvariablen
    duch Schätzung maximal nicht-gaussscher Variablen zi

    Maximierung von Massen für die Unabhängigkeit der zi

    Entropie: Information die durch Beobachtung einer
    Variablen z erhalten wird:
           H ( z) = H [ p( z)] = − ∫ p( z) log( p( z) dz

    Maximal falls z gaussverteilt
    (Hinweis: Berechnen Sie δH [ p( z)] ≡ 0 )
                                                                δp( z0 )
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                           14 December 2002
ICA Algorithmen
    Negentropie: Abweichung von der maximalen Entropie
    (zG sei eine gaussche Zufallsvariable mit gleicher
    Kovarianzmatrix wie z):                                     J ( z) = H ( zG ) − H ( z)
    Gemeinsame Information (mutual information):
    Differenz der Information, die durch Vektor z und die
    einzelnen Komponenten zk übertragen wird:
                                                      K
                  I ( z1 ,..., zK ) = ∑ H ( zk ) −H ( z)
                                                    k =1


 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                             14 December 2002
ICA Algorithmen
    Falls V nichtsingulär ist, gilt wegen z = V x für kleines
    Volumen im Wahrscheinlichkeitsraum

         dp = pz ( z)dz = pz ( Vx)dz = pz ( Vx) | V | dx = px (x )dx
                     ⇒          pz ( Vx) = px (x ) | V |−1

        ∂z
    mit    = V und |V| = det(V).
        ∂x
    Daraus folgt: H ( z) = − ∫ log( pz ( z)) pz ( z)dz = − ∫ log( pz ( Vx)) pz ( z)dz
                                             = − ∫ log( px (x )) pz ( z)dz + log(| V |)∫ pz ( z)dz

                                             = − ∫ log( px (x ) px (x )dx + log(| V |) = H (x ) + log(| V |)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                     14 December 2002
ICA Algorithmen
    Es sei angenommen, dass die Quellenvariablen z
    normiert und unkorreliert sind. ⇒ E{zzT} = I ⇒
      |E{zzT} | = |I| = 1 = | V E{xxT} VT | = |V|2 |E{xxT}|,
    d.h. |V| ist konstant bzw. unabhängig von z.

    Folgerung:                                                  K
                                  I ( z1 ,..., zK ) = − ∑ J ( zk ) + const(x )
                                                                k =1


    d.h. der Minimierung der gemeinsamen Information
    enspricht eine Maximierung der Negentropie der
    einzelnen zk
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                 14 December 2002
ICA Algorithmen

    Verschiedene Methoden zur Schätzung von V, z.B.
    Maximum-Likelihood (z.B. Pham et al, 1992)

    Schneller Algorithmus (“fast ICA”) basierend auf
    Approximation der Negentropie (Hyvärinen, 1999):
                      J ( z ) ∝ [ E{F ( z )} − E{F (ξ )}]2
    wobei ξ eine normalverteilte Zufallsvariable mit µ = 0 und
    σ = 1 ist. F(z) ist eine sigmoidale oder exponentielle
    nichtlineare Funktion.
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
                                                                  Quellenvariablen                   Daten
                                                                       z2                                  x2
Einfaches Beispiel
    Gleichverteilte                                                                 z1                             x1

    unabhängige
                                                                Hauptkomponenten          Daten im KS der PCs
    Quellenvariblen z1,2                                              (PCs)
                                                                              z1
                                                                                                     ˆ
                                                                                                     z2
    Bei PCA Vektoren zi
    orthogonal                                                               z2                                       ˆ
                                                                                                                      z1
    Bei ICA ist Verteilung                                      Gewichtsvektoren             Rek. Quellenvar.
                                                                der ICA    w2                         ˆ
                                                                                                      z2
    Produkt der Marginal-                                                          w1
    verteilungen                                                                                                        ˆ
                                                                                                                        z1
 M. Giese: Lernmethoden in Computervision und Computer Grafik                     (Gerstner, 2001)
                                                                                                           14 December 2002
Lernen natürlicher Bilder

          Natürliche Bilder (Bäume, Blätter,
          usw.)

          Fenster mit 12 x 12 Pixeln

          17.595 Traingsbilder

          144 Filter gelernt

          Lokalisierte rezeptive Felder
          (vgl. Olshausen & Field)

                                                                (Bell & Sejnowski, 1995)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                           14 December 2002
Lernen natürlicher Bilder
                                                                      Gemeinsame          Produkt der Mar-
                                                                       Verteilung         ginalverteilungen
                                                                         ˆ ˆ
                                                                       p(z1, z2 )              p(z1) ⋅ p(z2 )
                                                                                                 ˆ       ˆ

    Unabängigkeit der
                                                                PCA
    geschätzten
    Quellenvariablen
    wesentlich besser
    erfüllt für ICA
                                                                ICA


 M. Giese: Lernmethoden in Computervision und Computer Grafik               (Bell & Sejnowski, 1995)
                                                                                                       14 December 2002
Lernen natürlicher Bilder




    Ähnliche Studie
    (Hyvärinen, 2000)




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                14 December 2002
Lernen von Gesichtern
                                                                        PCA
  Ergebnisse verschieden
  für X und XT
      X            Modell I               Z

                                                                ICA (X: Pixel x Bilder)
                      V




                 Modell II               Z
                                                                ICA (X: Bilder x Pixel)
                      V


                                                                  Komponenten !
                                                                   (Draper et al., 2002)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                           14 December 2002
 V. Lernen von Mannigfaltigkeiten




M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                               14 December 2002
                                                                x2
Problem
                                                                 o           o
                                                                         o         o
    Bisher: (Primär) Methoden die
    Datenpunkte durch lineare Mannig-
                                                                                       x1
    faltigkeiten (Hyperebenen)
                                                                x2
    Im Folgenden: Modellierung von
                                                                         oo o
                                                                       o
    gekrümmten Mannigfaltigkeiten                                      o
                                                                      o    o
    (Kurven, Hyperflächen, …)                                             oo   oo
                                                                     o       o
                                                                      o
                                                                     o          x1

 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                 14 December 2002
Klassische Methoden
            Multidimensionale Skalierung (MDS)

            Hauptkurven (Vorlesung 9)

            Selbstorganisierende (Kohonen) Karten
            (self organizing maps, SOM)
            → Vorlesungen zu neuronalen Netzen
                                Daten                           2D   1D




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                          14 December 2002
Lokal Lineare Einbettung
(local linear embedding, LLE)
      Niedrigdimensionale Mannigfaltigkeit eingebettet in
      hochdimensionalen Raum

      Datenpunkte im hochdimensionalen Raum: xi, 1 ≤ i ≤ l

      Koordinaten in der niedrigdimensionalen Mannigfaltigkeit: yi, 1 ≤ i ≤ l

      Annahme: Dichte Abtastung der Mannigfaltigkeit durch die
      Datenpunkte
                                Mannigfaltigkeit                     Datenpunkte        Niedrigdim. Man.
                         x2                                     x2                 y2


                                x3                                   x3
(Roweis & Saul, 2000)

 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                x1                 x1                    y1
                                                                                                 14 December 2002
Lokal Lineare Einbettung
(local linear embedding, LLE)
      Algorithmus zum Lernen der Abbildung x ↔ y:

      1. Approximation jedes Datenpunktes durch die Linearkombination
             der Nachbarn: Minimierung von
                                                                         2
                                    l
               E ( W) = ∑ xi −                              ∑W xik k
                                   i =1           k∈{ Nachbarn von i }


             unter den NB: Wik = 0 falls k ∉ {Nachbarn von i}
                                          ∑W
                                           k
                                                 ik   =1

             Symmetrie: Invarianz gegen Translation, Rotation + Skalierung
                                    von Datenpunkt und Nachbarn

 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                             14 December 2002
Lokal Lineare Einbettung
(local linear embedding, LLE)
      2. Schätzen der niedrigdimensionalen Mannigfaltigkeit durch
             Approximation jedes Datenpunktes durch Übernehmen der
             Gewichte Wij : Minimierung von
                                                                          2
                                   l
              E2 ( Y ) = ∑ y i −                           ∑W  ik k y
                                  i =1           k∈{ Nachbarn von i }

                                                                                    l

             mit Y = [y1, …, yl] und NB                         ∑y
                                                                i
                                                                     i   = 0 und   ∑y y
                                                                                   i =1
                                                                                          i
                                                                                              T
                                                                                              i   = l ⋅I


             Lösung: SVD ⇒ Spärliches Eigenwertproblem

                      ⇒ Zwei Kleinste-Quadrate-Schätzungen

 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                           14 December 2002
Synthetische Beispiele

                Mannigfaltigkeit                      Datenpunkte                       Niedrigdim. Man.




                                                                (Saul & Roweis, 2000)

 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                           14 December 2002
Synthetische Beispiele

      Bestimmung der
      Dimensionalität schwierig

      Für equidistante Abtastung
      zeigen Eigenwerte der
      zweiten Quadrateschätzung
      Dimensionalität an

      Keine klare Aussage für
      zufällig abgetastete Daten




                                                                (Saul & Roweis, 2000)
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                        14 December 2002
Gesichtsräume


    2000 Gesichter

    20 x 28 Pixel (grauwert)




                                                                                        Ansicht
    ⇒ xi 280 dimensional

      yi 12 dimensional

    12 nächste Nachbarn




                        (Roweis & Saul, 2000)

                                                                Gesichtsausdruck
 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                   14 December 2002
Texträume

   5000 Wörter

   31.000 Artikel

   Grolier Enzykopädie

   Wortzahlen als Merkmale

   20 nächste Nachbarn
                                                                (Roweis & Saul, 2000)
   Euklidsche Distanz zwischen
   Wortzahlvektoren




 M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                              14 December 2002
 Wichtige Punkte

                     Fisher-Gesichter / Diskriminanzanalyse
                     Spärliche neuronale Codierung
                     Lernen von rezeptiven Feldern
                     Nichtnegative Matrixfaktorisierung
                     Independent Component Analysis und
                     Anwendungen auf Bilder
                     Lokal lineare Einbettung (LLE)




M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                               14 December 2002
   Literatur
     Belhumeur, P.N., Hespanha, J. P. & Kriegman, D.J (1997) Eigenfaces vs. Fisherfaces:
        Recognition using class specific linear projection. IEEE Transactions on Pattern
        Recognition and Machine Intelligence, 19, 711-720.
     Bell, A.J.& Sejnowski, T.J. (1995) An information maximisation approach to blind separation
         and blind deconvolution. Neural Computation, 7, 1129-1159.
     Cherkassky, V., Mulier, F. (1998). Learning From Data. John-Wiley & Sons Inc, New York.
     Draper, B.A., Baek, K., Bartlett, M.S., and Beveridge, J.R. (2002) Recognizing faces with
        PCA and ICA. Computer Vision and Image Understanding, (submitted).
     Duda, R.O., Hart, P.E., Stork, D.G. (2001). Pattern Classification. John-Wiley & Sons Inc,
        New York.
     Forsyth, D.A. & Ponce, J. (2003). Computer Vision: A modern Approach. Prentice-Hall.
        Upper Saddle River, NJ.
     Hyvärinen, A. & Oja, E. (2000) Independent Component Analysis: A tutorial. Neural
        Networks, 13, 411-430.
     Lee D.D & Seung, H S. (1999) Learning the parts of objects by non-negative matrix
        factorization. Nature 401, 788-791.
     Roweis S.T. & Saul L.K. (2000) Nonlinear dimensionality reduction by local linear
       embedding. Science 290, 2323-2326.


M. Giese: Lernmethoden in Computervision und Computer Grafik
                                                                                                  14 December 2002

								
To top