Docstoc

ppt

Document Sample
ppt Powered By Docstoc
					   Algorithmen zur Entdeckung von
 Assoziationsregeln unter Vermeidung
        von redundanten und
      missverständlichen Regeln


                     PG 402 Wissensmanagment
                     Lehrstuhl für Künstliche Intelligenz
                     Prof. Katarina Morik und Stefan Haustein
                     7. Mai 2001



Zoulfa El Jerroudi
                     Gliederung

•     Problemdarstellung
•     Nachteile von Support und Konfidenzwert
•     Eigenschaften für ein Genauigkeitsmaß
•     Sicherheitsfaktor
•     Lösungsmöglichkeiten zur Vermeidung von
      redundanten Regeln
•     Eine Implementierung von Apriori
•     Zusammenfassung und Ausblick


                      Algorithmen zur Entdeckung von Assoziationsregeln unter   2
Zoulfa El Jerroudi
                     Vermeidung von redundanten und mißverständlichen Regeln
                     Problemdarstellung

  Assoziationsregeln drücken Regelmäßigkeiten
  zwischen Objekten in einer Datenbank aus

  Das Problem der Entdeckung von Assoziationsregeln
  wurde 1993 von Agrawal, Imielinski und Swami
  eingeführt. In: Mining association rules between sets
  of items in large databases




                         Algorithmen zur Entdeckung von Assoziationsregeln unter   3
Zoulfa El Jerroudi
                        Vermeidung von redundanten und mißverständlichen Regeln
     Assoziationsregeln – Eine Übersicht

• Es sei D eine Menge von Transaktionen, wobei jede
  Transaktion T eine Menge von Obj. (Items) aus I={i1,
  i2, ...,in} ist. Also T ⊆ I.
• Eine Assoziationsregel ist eine Implikation der Form
  A => B, wobei A, B ⊆ I und A  B = Ø ist.
• Die Regel A => B hat den Konfidenzwert c, wenn
  c% der Trans. in D, die A enthalten auch B enthalten
• Die Regel A => B hat den Support s, wenn s% der
  Trans. in D, A vereinigt B enthalten



                      Algorithmen zur Entdeckung von Assoziationsregeln unter   4
Zoulfa El Jerroudi
                     Vermeidung von redundanten und mißverständlichen Regeln
                        Die Aufgabe

    Bei einer gegebenen Transaktionsmenge D, besteht
    die Aufgabe der Entdeckung der Assoziationsregeln
    darin, alle Regeln abzuleiten, die einen Support und
    Konfidenzwert haben, der größer ist als der vom
    Benutzer eingegebner minimaler Support bzw.
    minimaler Konfidenzwert ist.




                      Algorithmen zur Entdeckung von Assoziationsregeln unter   5
Zoulfa El Jerroudi
                     Vermeidung von redundanten und mißverständlichen Regeln
                     2 Phasen zur Entdeckung von
                          Assoziationsregeln

•    Die Aufgabe der Entdeckung von Assoziationsregeln wird
     in 2 Phasen unterteilt:
     1. Finde alle Kombinationen von Obj., für die gilt
          support > minsup. Diese Kombinationen werden
          große Objektmengen genannt.
     2. Benutze die großen Objektmengen (frequent
          itemset) um die Regeln abzuleiten.
          Dazu wird für jede große Objektmenge X, jede ihrer
          Teilmenge als Beh. (A) gewählt u. die verbleibenden
          Obj. als Folgerung (B). Danach wird der
          Konfidenzwert berechnet und die Regel wird
          verworfen, falls ihr Konfidenzwert < minconf Ist.

                          Algorithmen zur Entdeckung von Assoziationsregeln unter   6
Zoulfa El Jerroudi
                         Vermeidung von redundanten und mißverständlichen Regeln
  Nachteile von Support und Konfidenzwert
                 1.Beispiel
Nachteile von Support und Konfidenzwert wurden von Motwani u. Ullman, von Daniel Sánchez u.
Silversten untersucht.
Folgendes Beispiel ist aus: Dynamic itemset counting and implication rules from market basket
data von S. Brin, R. Motwani, J.D. Ullman, and S. Tsur. SIGMOD Record, 26(2):255-264, 1997

In der Datenbank CENSUS hat d. Regel: Aktive militärische
Vergangenheit => kein Dienst in Vietnam einen Konfidenzwert
90%. Man beachte aber: Objektmenge {keinen Dienst in
Vietnam} hat einen Support von 95%.
Also: Wahrscheinlichkeit, dass eine Person nicht in Vietnam
gedient hat, fällt von 95% auf 90%, wenn wir wissen, das sie
aktiven militärischen Dienst geleistet hat.
Diese Regel ist irreführend.
                             Algorithmen zur Entdeckung von Assoziationsregeln unter       7
     Zoulfa El Jerroudi
                            Vermeidung von redundanten und mißverständlichen Regeln
Nachteile von Support und Konfidenzwert
               2. Beispiel
M. S. Chen, J. Han und P.s. Yu. Data Mining: An Overview from a Database Perspective.
IEEE Transactions on Knowledge and Data engineering, 8(6): 866-883, 1996


Frühstücksflocken-Hersteller führt Umfrage mit 5000 Schülern
durch. Die Umfrage ergab: 60% spielen Basketball, 75% essen
Cornflakes und 40% essen Cornflakes und spielen Basketball.
Angenommen auf den Daten wird Apriori angewannt. Der min.
Support der Schüler sei 2000 und der Konfidenzwert sei 60%.
Es würde folgende Assoziationsregel abgeleitet werden:
Basketball spielen => Cornflakes essen (Konfidenzwert 66%)
Aber: In Wirklichkeit ist d. Anzahl der Schüler die Cornflakes
essen ist viel höher (75%). Basketball spielen und Cornflakes
essen beeinflussen sich also negativ.
                        Algorithmen zur Entdeckung von Assoziationsregeln unter   8
  Zoulfa El Jerroudi
                       Vermeidung von redundanten und mißverständlichen Regeln
    Nachteile von Support und Konfidenzwert
                   3. Beispiel

Folgendes Beispiel zeigt, dass viele überflüssige Regeln ableitet
werden können.
Aus: A new Framework to Assess Assosiation Rules. F. Berzal, I. Blanco, D.
Sánchez und Maria-Amparo Vila
Sei T eine Menge von Transaktionen.
R eine daraus abgeleitete Regelmenge.
Ein Obj. i wird in (fast) allen Transaktionen hinzugefügt => Obj. i hat
hohen Support.
Wenn wir i in jeder Regel zu der Folgerung hinzufügen, ändern sich
Support und Konf. nicht. Genauso, wenn wir das Obj. i in die
Behauptung einfügen. So erhalten wir 3 x soviele Regeln.
Da das Obj. i (fast) immer vorkommt, kann aus jeder Teilmenge das
Obj. i gefolgert werden.
                       Algorithmen zur Entdeckung von Assoziationsregeln unter   9
 Zoulfa El Jerroudi
                      Vermeidung von redundanten und mißverständlichen Regeln
   Eigenschaften für ein Genauigkeitsmaß

    Piatetsky-Shapiro hat in: Discovery, analysis and presentation of strong
    rules gezeigt, dass jedes Genauigkeitsmaß ACC für eine
    Assoziationsregel folgende Eigenschaften erfüllen muss, um die
    starken Regeln von den schwachen zu trennen.

P1: ACC(A => C) = 0, wenn Supp(A => B) = supp(A)
  supp(C) Diese Eigenschaft geht davon aus, dass jedes
  Genauigkeitsmaß die Unabhängigkeit testen muss.
P2: ACC(A => C) wächst monoton mit Supp(A => C), wenn
  die anderen Parameter gleich bleiben.
P3: ACC(A => C) fällt monoton mit supp(A) (oder mit
  supp(C), wenn die anderen Parameter gleich bleiben.



                      Algorithmen zur Entdeckung von Assoziationsregeln unter   10
Zoulfa El Jerroudi
                     Vermeidung von redundanten und mißverständlichen Regeln
Erfüllt der Konfidenzwert diese Eigenschaften?
  Der Konfidenzwert erfüllt die Eigenschaft P1 nicht.
  Der Konfidenzwert erfüllt die Eigenschaft P2.
  Die Eigenschaft P3 erfüllt er nur für supp(A)

  Zusammenfassend: Der Konfidenzwert kann weder
  statistische Unabhängigkeit noch neg. Abhängigkeit
  entdecken (siehe Beispiel), weil in seiner Def. der Support
  der Beh. Nicht in Betracht gezogen wird.
  Conf(A =>C) = supp( A  C)/supp(A) = supp( A =>
  C)/supp(A)
  Da supp(A =>C)= supp(A  C)



                        Algorithmen zur Entdeckung von Assoziationsregeln unter   11
  Zoulfa El Jerroudi
                       Vermeidung von redundanten und mißverständlichen Regeln
           Sicherheitsfaktor (certainty factor)
Shortliffe und Buchanan führten in: A model of inexact reasoning in medicine
(1975) den Sicherheitsfakor ein, der den Konfidenzwert als Genauigkeitsmaß
ersetzt.

Def: Der Sicherheitsfakor einer Regel aus A => C hat den Wert:
CCF(A =>C ) =    Conf(A => C) – supp(C)
                          1 –supp(C)
    wenn Conf(A => C) > supp(C), und
CCF(A =>C ) =   Conf(A => C) – supp(C)
                       supp(C)
  wenn Conf(A => C) < supp(C)
  und 0 sonst.
Der Sicherheitsfaktor erfüllt alle 3 Eigenschaften eines
Genauigkeitsmaß
                       Algorithmen zur Entdeckung von Assoziationsregeln unter   12
 Zoulfa El Jerroudi
                      Vermeidung von redundanten und mißverständlichen Regeln
Lösungsmöglichkeiten für die Nachteile eines
      Obj. mit hohem Support (1.Teil)
  • Obj. Mit sehr hohem Support führen zu sehr vielen, nicht
    aussagekräftigen Regeln (s. Beispiel)
  • 1. Lösung: Grenzwert für den Support, der nicht überschritten
    werden darf. Nachteil: Benutzer muss diesen Wert angeben.
  • 2. Lösung: Konzept der sehr starken Regeln
    Def.: Eine Regel A => C heißt stark, wenn ihr Support und ihr
    Sicherheitsfaktor (certainty factor) größer sind, als die vom
    ´Benutzer eingegebene Grenzwerte
    Def.: Eine Regel aus A => C heißt sehr stark, wenn sowohl A
    => C als auch ¬C => ¬A starke Regeln sind.




                         Algorithmen zur Entdeckung von Assoziationsregeln unter   13
   Zoulfa El Jerroudi
                        Vermeidung von redundanten und mißverständlichen Regeln
Lösungsmöglichkeiten für die Nachteile eines
      Obj. mit hohem Support (2.Teil)
  • Mit dieser Def. Kann man das Problem von Obj., die in fast
    allen Trans. Auftauchen, lösen. Da, falls supp(C) (oder supp(A))
    sehr hoch ist, dann ist supp(¬C => ¬A) sehr niedrig und die
    Regel ¬C => ¬A nicht stark und somit A => C nicht sehr stark.
  • D.h es müssen nur folgende Bed. Getestet werden.
    1. Support
        (a) Supp(A => C) > minsupp
        (b) Supp(¬C => ¬A) > minsupp
    2. Certainty factor
        (a) CF(A => C) > minCF
        (b) CF(¬C => ¬A) > minCF



                         Algorithmen zur Entdeckung von Assoziationsregeln unter   14
   Zoulfa El Jerroudi
                        Vermeidung von redundanten und mißverständlichen Regeln
    Implementierung des Apriori-Algorithmus

In: ARtool v1.1.2- Association Rule Mining Algorithms and Tools
Von: Laurentiu Cristofor
  Der Closure Algorithmus wurde eingeführt in:
  Fast Algorithms for Mining Association Rules, by Rakesh Agrawal and Ramakrishnan
  Srikant, IBM Almaden Research Center Technical Report RJ9839, 1994.

  The FPgrowth Algorithmus wurde eingeführt in:
  Galois Connections and Data Mining, by Dana Cristofor, Laurentiu Cristofor, and Dan A.
  Simovici, published in the Journal of Universal Computer Science, vol. 6, no. 1, 2000, pages
  60-73.
  The CoverRules algorithm comes from:
  Mining Frequent Patterns without Candidate Generation, by Jiawei Han, Jian Pei and Yiwen
  Yin, published in Proceedings of ACM-SIGMOD International Conference on Management of
  Data, 2000, pages 1-12.

                           Algorithmen zur Entdeckung von Assoziationsregeln unter   15
    Zoulfa El Jerroudi
                          Vermeidung von redundanten und mißverständlichen Regeln
                          Die Oberfläche




                      Algorithmen zur Entdeckung von Assoziationsregeln unter   16
Zoulfa El Jerroudi
                     Vermeidung von redundanten und mißverständlichen Regeln
     große Objektmengen (frequent itemset)




                      Algorithmen zur Entdeckung von Assoziationsregeln unter   17
Zoulfa El Jerroudi
                     Vermeidung von redundanten und mißverständlichen Regeln
                     Assoziationsregeln




                       Algorithmen zur Entdeckung von Assoziationsregeln unter   18
Zoulfa El Jerroudi
                      Vermeidung von redundanten und mißverständlichen Regeln
                              Dateiformat
Textdatei Versicherung.asc
1 Rentenversicherung
2 Unfallversicherung
3 Krankenversicherung
4 Lebensversicherung A
5 Lebensversicherung B
6 Lebensversicherung C
BEGIN_DATA
1 2 3
2 3 4
1 2
2 3
END_DATA

• Wird in das interne Format Versicherung.db konvertiert mit dem
  Aufruf java asc2db Versicherung


                      Algorithmen zur Entdeckung von Assoziationsregeln unter   19
Zoulfa El Jerroudi
                     Vermeidung von redundanten und mißverständlichen Regeln
        Zusammenfassung und Ausblick

  Die Definition der sehr starken Regeln basierend auf den
  Sicherheitsfaktor ist nützlich bei der Vermeidung von
  überflüssigen Regel.


Das ARtool lässt sich gut in das System EAMS integrieren.                         




                        Algorithmen zur Entdeckung von Assoziationsregeln unter   20
  Zoulfa El Jerroudi
                       Vermeidung von redundanten und mißverständlichen Regeln

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:3
posted:9/17/2011
language:German
pages:20