Embed
Email

Was kommt jetzt?

Document Sample
Was kommt jetzt?
Shared by: HC1112140287
Categories
Tags
Stats
views:
0
posted:
12/13/2011
language:
pages:
62
201+1/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Was kommt jetzt?



Lernen als probabilistische Inferenz – in anderen Worten

Statistisches Lernen.

• Entscheidungsbäume Lernaufgabe Begriffslernen

• Stützvektormethode Lernaufgabe Funktionsapproximation

– Klassifikation (binäre Funktion)

– Regression (reellwertige Funktion)

201+2/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Entscheidungsbaum

Feuchte





=trocken =feucht





Säure Temp



 7,5 >9



=basisch =neutral =alkalisch

N W





Temp Temp W

Die Rotbuche kann gut wachsen (W)

 3,5 > 3,5  7,5 >7,5 oder nicht wachsen (N).



N W W N

Dank an Stefan Wrobel!

201+3/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Entscheidungsbäume



• Ein Entscheidungsbaum dient der Klassifikation von

Beispielen.

• Ausgehend von der Wurzel des Baums werden die Attribute,

deren Werte von einem Knoten zum Nachfolgeknoten führen,

mit den Attributwerten des Beispiels verglichen und der

entsprechende Pfad verfolgt.

• Wenn ein Blatt des Baums erreicht wird, gibt es die

Klassifikation des Beispiels an.

201+4/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel

Feuchte





=trocken =feucht





Säure Temp



 7,5 >9



=basisch =neutral =alkalisch

N W





Temp Temp W

Beispiel:

 3,5 > 3,5  7,5 >7,5 E1: Feuchte = trocken

Säure = basisch

Temp = 7

N W W N

201+5/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Lernen von

Entscheidungsbäumen

Gegeben:

LE: Beispiele in Form von Attributen und Werten,

wobei ein binäres Attribut die Klasse des Beispiels angibt.

LH: Alle aus den gegebenen Attributen mit ihren Werten

konstruierbare Entscheidungsbäume.



Ziel:

Ein Entscheidungsbaum, der Beispiele mit minimalem Fehler

klassifiziert.

201+6/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiele



ID Feuchte Säure Temp Klasse ID Feuchte Säure Temp Klasse

1 trocken basisch 7 W 10 trocken alkalisch 8 W

2 feucht neutral 8 N 11 feucht basisch 7 N

3 trocken neutral 7 W 12 feucht neutral 10 W

4 feucht alkalisch 5 N 13 trocken basisch 6 W

14 feucht alkalisch 7 N

5 trocken neutral 8 N

15 trocken basisch 3 N

6 trocken neutral 6 W

16 trocken basisch 4 W

7 trocken neutral 11 N

8 trocken neutral 9 N

9 trocken alkalisch 9 W

201+7/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiele nach Attributen sortiert

Feuchte: Feuchte: Säure: Säure: Temp: Temp:

trocken feucht basisch neutral >6,5 6,5

1 W 2 N 1 W 2 N 1 W 4 N

3 W 4 N 11 N 3 W 2 N 6 W

5 N 11 N 13 W 5 N 3 W 13 W

6 W 12 W 15 N 6 W 5 N 15 N

7 N 14 N 16 W 7 N 10 W 16 W

8 N W:3,N:2 8 N 11 N

9 W Total: 5 12 W 12 W

10 W Säure: 14 N

13 W alkalisch

15 N 4 N

16 W 9 W

10 W

14 N

W:7, N: 4 W: 1, N: 4 W:2, N:2 W:3,N:4 W:4, N:4 W: 3, N:2

Total: 11 Total: 5 Total: 4 Total: 7 Total: 8 Total: 5

201+8/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Rekursiver Ansatz

• Die Klasse, die am häufigsten bei einem Attributwert vorkommt,

wird vorausgesagt, wenn der Attributwert im Beispiel vorkommt.

• Es wird das Attribut mit dem kleinsten Fehler auf den Beispielen

gewählt.

Test Feuchte





=trocken =feucht



Test Feuchte = trocken Test Feuchte = feucht

{1,3,5,6,7,8,9,10,13,15,16} {2,4,11,12,14}

W N

4/11 Fehler 1/5 Fehler





• Die Knoten werden wieder nach Attributen aufgeteilt, wenn

es noch einen Fehler auf den Beispielen gibt.

201+9/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel

Feuchte





=trocken =feucht



{1,3,5,6,7,8,9,10,13,15,16} {2,4,11,12,14}



Säure Temp



9 >9



=basisch =neutral =alkalisch

N W

{1,13,15,16} {3,5,6,7,8} {9,10} {2,4,11,14} {12}



Temp Temp W



 3,5 > 3,5  7,5 >7,5



N W W N 0 Fehler auf den Beispielen.

{15} {1,13,16} {3,6} {5,7,8}

201+10/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





TDIDT - Algorithmus



TDIDT (E, Tests)

Falls E nur Beispiele einer Klase enthält, liefere einen

Blattknoten mit dieser Klasse zurück. Sonst

Für jeden Test in Tests, berechne Qualität (Test, E).

Wähle den Test mit der höchsten Qualität für den aktuellen

Knoten aus.

Teile E anhand des Testes gemäß der Attributwerte in Mengen

E1, ..., Ek auf.

Für i = 1, ..., k rufe rekursiv auf: TDIDT(Ei, Tests\{Test}).

Liefere den aktuellen Knoten mit den darunter liegenden

Teilbäumen zurück.

201+11/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Qualitätsmaß



• Information: wie viele ja-/nein-Fragen braucht man, um ein

Element einer Menge zu identifizieren?  Bits

• Je nach Wahrscheinlichkeit pi des Elements sind es weniger

oder mehr Fragen.

• Informationsgehalt einer Menge mit m Elementen(Entropie):

wie viele Fragen braucht man durchschnittlich, um jedes

Element zu identifizieren.

m

  pi log pi

i 1

201+12/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Informationsgewinn



• Hier sind die zu identifizierenden Elemente die Klassen.

• Als Annäherung an die Wahrscheinlichkeit nehmen wir die

Häufigkeiten in den Beispielen.

• Wir wollen den Test auswählen, der den Informationsgehalt

der durch ihn entstehenden Beispielmengen am meisten

reduziert.

201+13/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel

Feuchte

Test: Säure = feucht





{2,4,11,12,14}

=basisch =neutral =alkalisch 4 4 1 1

  log  log  

5 5 5 5



{11} {2, 12} {4,14} Test: Temp

 1 1 

 1log 1  log  1log 1 

 2 2  9 >9



N W

Der Gewinn ist bei Temp größer {2,4,11,14} {12}

als bei Säure.

Es wird der Test nach dem Attribut

Temp gewählt. 1log 1  1log 1  0

201+14/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Probleme



• Überanpassung (overfitting): Da der Trainingsfehler

minimiert wird, kann sich der Entscheidungsbaum zu stark an

die Beispiele anpassen, so dass er auf den Testdaten falsch

entscheidet.

Ausweg: einen Teil der Traininsdaten zum Test des

vorläufigen Ergebnisses beiseite legen (Kreuvalidierung). Den

Baum zur Optimierung auf den Validierungsdaten stutzen.

• Identische Testfolgen können an verschiedenen Stellen des

Baumes auftreten.

201+15/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Was wissen Sie jetzt?



• TDIDT ist ein effektiver und effizienter Algorithmus. Sie

kennen seine Arbeitsweise, wissen,

– dass Tests an den Knoten Beispielmengen zurückliefern

– dass die Tests nach einem Qualitätskriterium ausgewählt

werden (automatische Merkmalsselektion) und

– dass meist der Informationsgewinn als Kriterium gewählt wird.

• C4.5 (bei weka J48) ist das am häufigsten verwendete

Lernverfahren.

201+16/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Erinnerung: Funktionslernen



Gegeben:

Beispiele X in LE

– die anhand einer Wahrscheinlichkeitsverteilung P auf X erzeugt wurden und

– mit einem Funktionswert Y = t(X) versehen sind (alternativ: Eine

Wahrscheinlichkeitsverteilung P(Y|X) der möglichen Funktionswerte - verrauschte

Daten).

H die Menge von Funktionen in LH.





Ziel: Eine Hypothese h(X)  H, die das erwartete Fehlerrisiko R(h) minimiert.





Risiko:

R ( h )   Q ( x, h ) P ( x )

x

201+17/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel: Funktionenlernen





0% 50% 5%









1 2 3

25% 0% 20%



• H = { fa | fa(x) = 1, für x  a, fa(x) = -1 sonst, a}

• R(f0) = 0,25 + 0 + 0,20 = 0,45

• R(f1,5) = 0 + 0 + 0,20 = 0,20

• R(f3,5) = 0 + 0,5 + 0,05 = 0,55



Dank an Stefan Rüping!

201+18/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Reale Beispiele



• Klassifikation: Q(x,h) = 0, falls t(x) = h(x), 1 sonst

– Textklassifikation (x = Worthäufigkeiten)

– Handschriftenerkennung (x = Pixel in Bild)

– Vibrationsanalyse in Triebwerken (x =

Frequenzen)

– Intensivmedizinische Alarmfunktion (x =

Vitalzeichen)

• Regression: Q(x,h) = (t(x)-h(x)))2

– Zeitreihenprognose (x = Zeitreihe, t(x) =

nächster Wert)

201+19/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Erinnerung: Minimierung des

beobachteten Fehlers



Funktionslernaufgabe nicht direkt lösbar. Problem:

• Die tatsächliche Funktion t(X) ist unbekannt.

• Die zugrunde liegende Wahrscheinlichkeit ist unbekannt.





Ansatz:

• eine hinreichend große Lernmenge nehmen und für diese den

Fehler minimieren.





 Empirical Risk Minimization

201+20/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel

201+21/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel II

201+22/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Probleme der ERM



• Aufgabe ist nicht eindeutig beschrieben: Mehrere

Funktionen mit minimalem Fehler existieren. Welche wählen?

• Overfitting: Verrauschte Daten und zu wenig Beispiele

führen zu falschen Ergebnissen.

201+23/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Die optimale Hyperebene



• Beispiele heißen linear trennbar, wenn es eine

Hyperebene H gibt, die die positiven und

negativen Beispiele voneinander trennt.

• H heißt optimale Hyperebene, wenn ihr d

Abstand d zum nächsten positiven und zum d

nächsten negativen Beispiel maximal ist.

• Satz: Es existiert eine eindeutig bestimmte

optimale Hyperebene.





H

201+24/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Berechnung der opt. Hyperebene



• Hyperebene • Entscheidungsfunktion f(x) =

H = {x | w*x+b = 0} w*x+b

• H trennt (xi,yi), yi{±1} • f(xi) > 0  yi > 0

• ||w|| minimal und

• H ist optimale Hyperebene

f(xi)  1, wenn yi = 1

f(xi)  -1, wenn yi = -1









H

+1 f





-1

201+25/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Optimierungsaufgabe der SVM



• Minimiere ||w||2

• so dass für alle i gilt:

f(xi) = w*xi+b  1 für yi = 1 und

f(xi) = w*xi+b  -1 für yi = -1

• Äquivalente Nebenbedingung: yi*f(xi)  1

• Konvexes, quadratisches Optimierungs-problem 

eindeutig in O(n3) lösbar.

• Satz: ||w|| = 1/d, d = Abstand der optimalen

Hyperebene zu den Beispielen.

201+26/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Nicht linear trennbare Daten



• In der Praxis sind linear

trennbare Daten selten.

• 1. Ansatz: Entferne eine

minimale Menge von

Datenpunkten, so dass die Daten

linear trennbar werden

(minimale Fehlklassifikation).

?

• Problem: Algorithmus wird

exponentiell.

201+27/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Weich trennende Hyperebene



n

• Wähle C>0 und minimiere w  C  i

2



i 1

• so dass für alle i gilt:

f(xi) = w*xi+b  1-i für yi = 1 und

f(xi) = w*xi+b  -1+i für yi = -1

• Äquivalent: yi*f(xi)  1- i



+1 f





201+28/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Duales Optimierungsproblem



• Umformung mit Lagrange-Multiplikatoren

liefert einfacheres Optimierungsproblem:

• Maximiere



W ( )    i  1  yi y j i j xi  x j 

n n n



2

i 1 i 1 j 1

• unter 0  i  C für alle i und iyi = 0

• Es gilt w = iyixi, also f(x) =

iyi(xi*x)+b

201+29/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Bedeutung von  und 





=0, =0



=0, 01, =C





f(x)=-1 f(x)=0 f(x)=1



Beispiele xi mit i>0 heißen Stützvektoren  SVM

201+30/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Optimierungsalgorithmus





s = Gradient von W() // si = j(xj*xi)

while(nicht konvergiert(s)) // auf  genau

WS = working_set(s) // suche k „gute“ Variablen

‘ = optimiere(WS) // k neue -Werte

s = update(s, ‘) // s = Gradient von W(‘)



• Gradientensuchverfahren

• Trick: Stützvektoren allein definieren Lösung

• Weitere Tricks: Shrinking, Caching von xi*xj

201+31/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Was wissen wir jetzt?



• Funktionslernen als allgemeine Lernaufgabe

• Minimierung des empirischen Risikos als Lösungsstrategie

• Optimale Hyperebene präzisiert die ERM

• Praxis: weich trennende Hyperebene

• Berechnung mittels SVM und dualem Problem

• Offene Fragen: Generelles Prinzip hinter der optimalen

Hyperebene? Nicht lineare Daten?

201+32/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel: Textklassifikation



To: rueping@ls8.cs.uni- 1 astonishing 0.1

dortmund.de 3 free 0.4

Subject: Astonishing 2 in 0.0

Guaranteed XXX Pictures ⋮ ⋮

FREE! Gao 2 pictures 0.2 > 0

In the next 2 minutes you are

going to learn how to get

1

0

porn

SVM * 1.1

-0.6

access to totally FREE xxx 5 to 0.0

pictures. Let me show you 0 university -0.4

the secrets I have learned to 2 XXX 0.9

get FREE porn passwords.

Indeed, with this in mind lets

take a quick look below to

see what you get, ok? SVM

201+33/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





TCat-Modell



• Typische Dimension: 10.000 – 100.000

• SVM lernt ohne Vorauswahl von Wörtern!

• Text-Categorisierungs-Model:





positive Dokumente









negative Dokumente

201+34/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Beispiel: Intensivmedizin



 0.014  artsys  174.00   • Vitalzeichen von

    Intensivpatienten

 0.019  artdia  86.00  

  0.001 artmn  121.00   • Alarm geben oder

    nicht?

  0.015  cvp  8.00  

f ( x)    0.016  hr  79.00   4.368 • Hohe Genauigkeit

    • Verständlichkeit?

 0.026  papsys  26.00  

 0.134  papdia  13.00  

   

  0.177  papmn  15.00  

   

 

   

201+35/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Bias-Varianz-Problem



• Zu kleiner Hypothesenraum:

Zielfunktion nicht gut genug

approximierbar (Bias)

• Zu großer Hypothesenraum:

Zuviel Einfluß zufälliger

Abweichungen (Varianz)

• Lösung: Minimiere obere

Schranke des Fehlers:

R(h)  Remp(h) + Var(h)

201+36/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Strukturelle Risikominimierung





1. Ordne die Hypothesen in

Teilmenge gemäß ihrer

Schranke(h) =

Remp(h) + Var(h)

Komplexität

2. Wähle in jeder Teil-

menge die Hypothese mit

dem geringsten

empirischen Fehler

3. Wähle insgesamt die

Hypothese mit minimaler Komplexität



Risikoschranke

201+37/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Vapnik-Chervonenkis-Dimension



• Definition: Eine Menge H von

Hypothesen zerschmettert eine

Menge E von Beispielen, wenn

jede Teilmenge von E durch ein

hH abgetrennt werden kann.

• Definition: Die VC-Dimension

einer Menge von Hypothesen

H ist die maximale Anzahl von

Beispielen E, die von H

zerschmettert wird.

201+38/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





VC-Dimension von Hyperebenen



Satz: Die VC-Dimension der Hyperebenen

im Rn ist n+1.

Beweis:

• VCdim(Rn)  n+1: Wähle x0 = 0 und xi =

(0,...,0,1,0,...0). Für eine beliebige

Teilmenge A von (x0,...,xn) setze yi = 1,

falls xi  A und yi = –1 sonst. Definiere

w = ykxk und

b = y0/2. Dann gilt wx0+b = y0/2 und

wxi+b = yi+y0/2. Also: wx+b trennt A.

• VCdim(Rn)  n+1: Zurückführen auf die

beiden Fälle rechts.

201+39/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





VC-Dim. und Anzahl der Parameter



• Setze f(x) = cos(x) und xi = 10-i, i=1...l. Wähle

yi{-1,1}. Dann gilt für =(1/2(1-yi)10i):

 l 1  k  l 1 i k 

xk     2 (1  yi )10 10     2 (1  yi )10 

i



 i 1   i 1 



 k 1 1 l

i k 

    2 (1  yi )10  2 (1  yk )   2 (1  yi )10 

i k 1 1



 i 1 i  k 1 



0    10-1+10-2+ =1/9 Vielfaches von 2

(geometrische Reihe)

201+40/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





VC-Dim. und Anzahl der Parameter



 cos(xk)=cos(z) mit z[0,1/9] für yk=1 und z[1,10/9] für

yk=-1



cos



1/

9  2 3





 cos(x) zerschmettert x1,...xl

 cos(x) hat unendliche VC-Dimension

 Die VC-Dimension ist unabhängig von der Anzahl der

Parameter!

201+41/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





VC-Dimension der SVM



• Gegeben seien Beispiele x1,...,xln mit

||xi|| 1, =C 0

FROM examples_table x1, examples_table x2

WHERE x1.index = I

• SELECT

FROM examples_table x1, examples_table x2,

free_examples f

WHERE x1.index = i AND x2.index = f.index

• Weitere Optimierung durch Ausnutzen der relationalen Struktur im Cache

möglich.

201+62/ Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik





Was man über SVMs wissen muss



• Funktionenlernen – ERM – SRM

• Optimale Hyperebene: Definition, Berechnung, harte und

weiche Trennung

• Nicht-Linearität durch Kernfunktionen

• Idee der SRM, VC-Dimension

• Schätzung der Performanz

• Idee der Regressions-SVM


Related docs
Other docs by HC1112140287
Plyn w jamie oplucnowej
Views: 3  |  Downloads: 0
Background Material: Markov Decision Process
Views: 0  |  Downloads: 0
ME 313 Sample Lab Report
Views: 1  |  Downloads: 0
Ideas for questions
Views: 0  |  Downloads: 0
COL
Views: 0  |  Downloads: 0
Voice Over Internet Protocol
Views: 2  |  Downloads: 0
???????
Views: 0  |  Downloads: 0
LEARNER-CENTEREDNESS 101
Views: 0  |  Downloads: 0
By registering with docstoc.com you agree to our
privacy policy

You are almost ready to download!

You are almost ready to download!