Semantic Web und Web Mining by sir17308

VIEWS: 7 PAGES: 29

									Semantic Web und Web Mining:




Dominik Holler   21. Juni 2004   1
                  Übersicht

I. Einleitung
II. Funktionsweise FASTUS
 (1)Complex W ords
 (2)Basic Phrases
 (3)Complex Phrases
 (4)Domain Events
 (5)Merging Structures
III.Geschichte und Evaluierung
IV. FASTUS und das Semantic W eb
Dominik Holler              21. Juni 2004   2
                     Softwaretechnologie, die
F      Finite
                       Informationen aus
A      State           normalen „menschlichen“
S      Automaton       Texten, z.B.
T      Text            Zeitungsartikel oder
       Understanding   kurze Mitteilungen, an
U
                       Datenbanken und
S      System          Anwendungsprogramme
                       weiter gibt

Dominik Holler             21. Juni 2004   3
„information extraction systems“ vs.
    „text understanding systems“

information extraction systems:         text understanding systems:
●     Nur ein kleiner Teil des Textes   ●   Gesamter Inhalt ist relevant
      ist relevant
●     Information wird auf einfache     ●   Die Zielinformation nutzt eine
      Datenstruktur abgebildet              sprachlich komplizierte
                                            Darstellung
●     Das Ziel des Textes und die       ●   Das Ziel des Textes und die
      Absichten des Autors spielen          Absichten des Autors sind
      eine untergeordnete Rolle             wichtig




    Dominik Holler                          21. Juni 2004           4
    Recall, Precision und F-Score

●   „Recall“ ist ein Maß für die Vollständigkeit
●   „Precision“ ist ein Maß für die Korrektheit
●   „F-Score“:




Dominik Holler                21. Juni 2004    5
    Recall, Precision und F-Score

Example:
100 Fakten, 80 Antworten, 60 Richtige:
    ● Recall:      60%
    ● Precision:   75%
    ● F-Score*:    66%
                                          *(Beta=1)




  Dominik Holler          21. Juni 2004    6
                 Chomsky-Hierarchie

                                                Chomsky-Hierarchie
                                     K
                         ontext-sensitive Sprachen
                                  K
                                  ontext- freie
                                         Sprachen
       Menschliche
        Sprachen


                             Reguläre Sprachen




Dominik Holler                  21. Juni 2004                7
                    Beispieltext



   Bridgestone Sports Co. said Friday it has set up a joint
venture in Taiwan with a local concern and a Japanese trading
house to produce golf clubs to be shipped to Japan.
   The joint venture, Bridgestone Sports Taiwan Co., capital-
ized at 20 million new Taiwan dollars, will start production in
January 1990 with production of 20,000 iron and "metal wood"
clubs a month.




 Dominik Holler                      21. Juni 2004         8
                    Template

TIE­UP­1:
Relationship:          TIE­UP
Entities:              "Bridgestone Sports Co."
                       "a local concern"
                       "a Japanese trading house"
Joint Venture Company: " Bridgestone Sports Taiwan Co. "
Activity:              ACTIVITY­1
Amount:                NT$20000000




  Dominik Holler                21. Juni 2004     9
           II. FASTUS Architecture


                 (1)Complex W ords
                 (2)Basic Phrases
                 (3)Complex Phrases
                 (4)Domain Events
                 (5)Merging Structures



Dominik Holler                     21. Juni 2004   10
                 TOKENIZER

●   trennt verschiedene W örter
●   Abkürzungen und Doppelsinniges
●   keine Rechtschreibeprüfung
●   keine Trigger:
        take {HumanTarget} hostage




Dominik Holler         21. Juni 2004   12
                     (1) Complex Words


Erkennung zusammengesetzter W örter:
● (interner) Aufbau

          z.B. „new Taiwan dollars “;
               „Bridgestone Sports Taiwan Co. “
●   Kontext
        z.B. „XYZ's sales “; „ Vaclav Havel, 53, president of the 
    Czech Republic “
●   Ergebnis: Vaclav Havel: Person


    Dominik Holler                     21. Juni 2004      13
                     (2) Basic Phrases
                           Company Name: Bridgestone Sports Co.
                           Verb Group:   said
● Zahlwörter: z.B. „ca.“   Noun Group:   Friday
● Vergleiche               Noun Group:   it
● Aktiv/Passiv             Verb Group:   had set up
                           Noun Group:   a joint venture
                           Preposition:  in
                           Location:     Taiwan
                           Preposition:  wi t h
                           Noun Group:   a local concern
                           Conjunction:  and
                           Noun Group:   a Japanese trading house
                           Verb Group:   to produce
                           Noun Group:   golf clubs
                           Verb Group:   to be shipped
                           Preposition:  to
                           Location:     Japan
    Dominik Holler                      21. Juni 2004      14
            (3) Complex Phrases - 1

Ziel: Wortgruppen

„The joint venture, Bridgestone Sports Taiwan Co.,“
„production of 20,000 iron and "metal wood" clubs a month.“
„Terrorists kidnapped and killed three people.“

Template:
Activity:   PRODUCTION
Company:     ­­
Product:     "iron and `metal wood' clubs"
Start Date:  ­­



  Dominik Holler                  21. Juni 2004     15
            (3) Complex Phrases - 2

Idee der Verbgruppe:
GM formed a joint venture with Toyota.
GM announced it was forming a joint venture with Toyota.
GM signed an agreement forming a joint venture with Toyota.
GM announced it was signing an agreement to form a joint 
 venture with Toyota.

nähere Umstände:
„GM will form a joint venture with Toyota“
„fail to attack“




  Dominik Holler                  21. Juni 2004     16
              (4) Domain Events - 1


 {Company/ies} {Set-up} {Joint-Venture} with {Company/ies}


  {Produce} {Product}



Bridgestone Sports Co. said Friday it has set up a joint
venture in Taiwan with a local concern and a Japanese trading
house to produce golf clubs to be shipped to Japan.



 Dominik Holler                      21. Juni 2004        17
             (4) Domain Events - 2
              Datensätze erstellen
   Relationship:  TIE-UP
   Entities:      "Bridgestone Sports Co."
                  "a local concern"
                  "a Japanese trading house"
   Joint Venture Company: --
   Activity:      --
   Amount:        --

   Activity: PRODUCTION
   Company:    --
   Product:    "golf clubs"
   Start Date: --


Dominik Holler                21. Juni 2004   18
             (4) Domain Events - 3
                    Satzbau
„Salvadoran President-elect Alfredo Cristiani condemned the
terrorist killing of Attorney General Roberto Garcia Alvarado
and accused the Farabundo Marti National Liberation Front
(FMLN) of the crime.“



Subject VerbGroup {NounGroup | Other}*
                          Conjunction VerbGroup




Dominik Holler                         21. Juni 2004            19
          Äquivalente Ausdrücke


     Cars are manufactured by GM.
     ... GM, which manufactures cars ...
     ... cars, which are manufactured by GM ...
     ... cars manufactured by GM ...
     GM is to manufacture cars.
     Cars are to be manufactured by GM.
     GM is a car manufacturer.




                 GM manufactures cars.



Dominik Holler                   21. Juni 2004    20
                   Modifikatoren



Cars were manufactured last year by GM.
Cars are manufactured in Michigan by GM.
The cars, a spokesman announced, will be
manufactured in California and
Tennessee by General Motors.




  Dominik Holler            21. Juni 2004   21
     generative transformational
               grammer
"Wh-Question Formation Rule" for English:
1. Begin with a simple declarative, with a missing item:
   * He gave X a book.
2. Insert the appropriate Wh-word for the expected lexical category of the
  answer:
   * He gave to whom a book.
3. Change the form of the verb to the appropriate "did X" construction:
   * He did give to whom a book.
4. Use Subject-Auxiliary Inversion to form an interrogative:
   * Did he give to whom a book?
5. Move the Wh-word element to the front of the sentence:
   * To whom did he give a book?


 Dominik Holler                           21. Juni 2004           22
            (5) Merging Structures


           ● der interne Aufbau von Gruppen um Substantive
           ● Ähnlichkeit nach bestimmten Kriterien

           ● die Kompatibilität bzw. die Vereinbarkeit




  Folgern:       'Joint Venture'     →      'Activity'




Dominik Holler                           21. Juni 2004       23
                    (5) Mergin Structures
                                  example

                                           Activity:      PRODUCTION
                                           Company:       TIE-UP-1
                                           Product:       "golf clubs"
                                           Start Date:    -
Activity:           PRODUCTION
Company:            "Bridgestone Sports Taiwan Co."
Product:            iron and "metal wood" clubs
Start Date:         DURING: January 1990


     Activity:             PRODUCTION
     Company:              "Bridgestone Sports Taiwan Co."
     Product:              "iron and `metal wood' clubs"
     Start Date:           DURING: January 1990


   Dominik Holler                         21. Juni 2004         24
III. Geschichte und Evaluierung

● Dez 1991 als Preprocessor für TACITUS geplant
● Jan. 1992 Designentwurf

● März: Stufen 2 + 3

● Ende April: Stufe 4

● Anfang Mai: 8% Recall, 42% Precision

● Ende Mai: 44% Recall, 57% Precision

● FASTUS soll als eigenes System weiterentwickelt werden

● Juni: MUC-4: F-Score = 48.9 %

      SPARC-2 (40 BogoMIPS):
           100 Texte in 12/16 Minuten
           2.375 Worte pro Minute
● 1993: MUC-5 mit JV-FASTUS

● Sprache: CommonLISP



Dominik Holler                       21. Juni 2004         25
                IV. IE – Semantic Web

Semantic W eb braucht Metainformationen:
● Autor:
      ●    alte Dokumente
      ●    es werden nicht alle mitmachen
      ●    irrelevante Informationen
      ●    nicht ausreichende Informationen
      ●    veraltete Informationen
      ●    falsche Informationen
●    vollautomatisch:
      ●    technisch schwer umsetzbar
●    semi-automatisch
    Dominik Holler                      21. Juni 2004   26
                      & Semantic Web

                      Nachteile:
Vorteile:
                      ● kann nur ASCII-Text
● einfach
                        kein X/HTML
● schnell               keine Formatierung
● kurze                     z.B.: Tabellen
   Entwicklungszeit   ● keine W eb Features
                        z.B.:
                        „W rapper Induction“

  Dominik Holler          21. Juni 2004   27
                 IE & Semantic Web




Dominik Holler             21. Juni 2004   28
                 Vielen Dank!




Dominik Holler           21. Juni 2004   29

								
To top