; Baumbanken_ Parsing und Evaluation
Documents
Resources
Learning Center
Upload
Plans & pricing Sign in
Sign Out
Your Federal Quarterly Tax Payments are due April 15th Get Help Now >>

Baumbanken_ Parsing und Evaluation

VIEWS: 2 PAGES: 58

  • pg 1
									             Baumbanken, Parsing und Evaluation

                         Ines Rehbein

                             SS 08




                                                               nclt



Ines Rehbein (SS08)        Baumbanken             April 2008   1 / 55
Fahrplan

   Baumbanken
      ◮   ¨
          Uberblick
      ◮   Annotationsschemata
      ◮   Treebanking
   Baumbanken, Grammatik und Parsing
      ◮   CFG’s und PCFG’s
      ◮   Von der Baumbank zur Grammatik
      ◮       u
          Einf¨hrung: Parsing
      ◮   Parsen mit einer Baumbank-induzierten Grammatik
      ◮   Ist Deutsch schwerer zu Parsen als Englisch?
   Evaluation
      ◮   Wie gut ist mein Parser-Output?
      ◮     a              a
          St¨rken und Schw¨chen verschiedener Evaluations-Metriken

                                                                             nclt



   Ines Rehbein (SS08)            Baumbanken                    April 2008   2 / 55
Teil I




1       u
    Einf¨hrung
                                ¨
      Korpora - Geschichtlicher Uberblick
                    ¨
      Baumbanken - Uberblick
                   u
      Baumbanken f¨rs Deutsche
      Treebanking
      References




                                                           nclt



     Ines Rehbein (SS08)         Baumbanken   April 2008   3 / 55
Erste digitale Korpora
    Anfang 60er:
       ◮   Brown University Standard Corpus of Present-Day American English
           (Francis & Kucera)
               ⋆   synchron, ausgewogen (balanced)
               ⋆   ca. 1 Mio. Token (500 Samples mit je 2000 Token)
               ⋆   geschriebene Sprache von 1961
               ⋆   Korpus fertiggestellt in 1964
    Andere Korpora folgten:
       ◮   Lancaster-Oslo/Bergen (LOB) Corpus (Leech)
               ⋆   erstellt 1970-78
               ⋆                     u                       o
                   englisches Gegenst¨ck zum Brown Corpus (Gr¨ße, Design)
       ◮   London-Lund Corpus (LLC, Swartvik)
               ⋆   publiziert 1980
               ⋆   gesprochenes Englisch, transkribiert
               ⋆   ca. 50 000 Token
       ◮   Kolhapur Corpus of Indian English (Shastri, 1988)
       ◮   Australian Corpus of English (ACE)                                        nclt
       ◮   Wellington Corpus of Written New Zealand English

    Ines Rehbein (SS08)                   Baumbanken                    April 2008   4 / 55
Beispiel: Brown Corpus - Textsorten
   Das Original-Korpus von 1961 enthielt 1 014 312 Worte,
   zusammengestellt aus 15 verschiedenen Textkategorien:
      ◮   A. PRESS: Reportage (44 texts)
      ◮   B. PRESS: Editorial (27 texts)
      ◮   C. PRESS: Reviews (17 texts)
      ◮   D. RELIGION (17 texts)
      ◮   E. SKILL AND HOBBIES (36 texts)
      ◮   F. POPULAR LORE (48 texts)
      ◮   G. BELLES-LETTRES - Biography, Memoirs, etc. (75 texts)
      ◮   H. MISCELLANEOUS: US Government & House Organs (30 texts)
      ◮   J. LEARNED (80 texts)
      ◮   K. FICTION: General (29 texts)
      ◮   L. FICTION: Mystery and Detective Fiction (24 texts)
      ◮   M. FICTION: Science (6 texts)
      ◮   N. FICTION: Adventure and Western (29 texts)
      ◮   P. FICTION: Romance and Love Story (29 texts)
      ◮   R. HUMOR (9 texts)                                             nclt



   Ines Rehbein (SS08)          Baumbanken                  April 2008   5 / 55
Beispiel: Brown Corpus - Annotation


Raw text
A01 9 Though they may gather some left-wing support, a large majority
A01 10 of labour MPs are likely to turn down the Foot-Griffiths
A01 11 resolution.

Tagged Version
A01 9 though CS they PP3AS may MD gather VB some DTI left-wing JJB
A01 9 support NN , , a AT large JJ majority NN
A01 10 of IN labour NN MPs NPTS are BER likely JJ to TO turn VB
A01 10 down RP the AT Foot-Griffiths NP
A01 11 resolution NN . .



                                                                              nclt



    Ines Rehbein (SS08)            Baumbanken                    April 2008   6 / 55
Beispiel: Brown Corpus - POS Tagset

                u
   82 POS-Tags f¨r verschiedene Wortklassen:
      ◮   (a) mayor form-classes (≪parts of speech≫): noun, common and
          proper; verb; adjective; adverb; in short, the open lexical classes;
      ◮   (b) function words: determiners, prepositions, conjunctions, pronouns,
          etc.; the closed grammatical classes;
      ◮   (c) certain important individual words: not, existential there, infinitival
          to, the forms of the verb, do, be, and have , whether auxiliaries or full
          verbs;
      ◮   (d) punctuation marks of syntactic significance;
      ◮   (e) inflectional morphemes, notably noun plural and possessive; verb
          past, present and past participle, and 3rd singular concord marker;
          comparative and superlative adjective and adverb suffixes:

     S = plural              D = past tense                     $ = possessive
     Z = 3rd singular verb   R = comparative                    N = past participle
     T = superlative         G = present participle or gerund   O = objective case of pronoun
                                                                                         nclt



   Ines Rehbein (SS08)                 Baumbanken                           April 2008   7 / 55
Beispiel: Brown Corpus - POS Tagset
 Tag          Description                          Example
 AT           article                              the an no a every th’ ever’ ye
 BER          verb ”to be”, present tense,         are art
              2nd person singular or all
              persons plural
 CS           conjunction, subordinating           that as after whether before like if
 DTI          determiner/pronoun,                  any some
              singular or plural
 JJ           adjective                            recent over-all possible hard general
 JJB          attributive-only adjectives
 IN           preposition                          of in for by considering to on among
 MD           modal auxillary                      should may might will would must can
 NN           noun, singular, common               failure burden fire appointment
 NP           noun, singular, proper               Fulton Atlanta October Ivan
 P*           pronoun
 PP1A         personal pronoun, nom. 1. singular   I
 PP1AS        personal pronoun, nom. 1. plural     we
 TO           infinitival to                        to t’
 VB           verb, base: uninflected present,      investigate find act achieve feel
              imperative or infinitive
 ...
                                                                                                 nclt



       Ines Rehbein (SS08)                  Baumbanken                              April 2008   8 / 55
Erste Reaktionen auf linguistische Korpora


    1957: Chomsky Syntactic Structures
    Fokus auf Sprachkompetenz, Sprachperformanz und quantitative
    Aspekte von Sprache gelten als uninteressant

    “It must be recognized that the notion ’probability of a sentence’ is
    an entirely useless one, under any known interpretation of this term.”
    (Chomsky, 1969)

    Wenig Interesse an empirischen, korpus-linguistischen Projekten
                    a                a
    Korpora als zuf¨llige, nicht repr¨sentative Sammlungen von Texten,
    die keinen wirklichen Einblick in die Sprachkompetenz geben


                                                                           nclt



    Ines Rehbein (SS08)          Baumbanken                   April 2008   9 / 55
          o
Exkurs: K¨nnen Korpora Antworten auf linguistische
Fragestellungen geben?




   3 Beispiele:
      ◮   Beispiel I:                                  u
                         Extraposition und Subjazenz (M¨ller, 2004)
      ◮                                 u
          Beispiel II: Partikelverben (M¨ller & Meurers, 2006)
      ◮   Beispiel III: Idiome (Geyken, Sokirko, Rehbein & Fellbaum, 2004)




                                                                                    nclt



   Ines Rehbein (SS08)               Baumbanken                       April 2008   10 / 55
Beispiel I: Extraposition und Subjazenz                     u
                                                          (M¨ller, 2004)




    Theorie: Baltin (1981), Chomsky (1986)
    t in (1) kann nicht der Ursprung der Extraposition sein, da das
    Subjazenz-Prinzip verhindert, dass mehr als eine Barriere
    ¨
    ubersprungen wird
 [NP Many books [PP with [stories t]] t ′ ] were sold [that I wanted to read]. (1)

                                    u
    Gilt das Subjazenzprinzip auch f¨rs Deutsche?




                                                                                  nclt



    Ines Rehbein (SS08)             Baumbanken                      April 2008   11 / 55
Beispiel I: Extraposition und Subjazenz                     u
                                                          (M¨ller, 2004)


      u
    M¨ller (2004) zeigt, dass Extrapositionen im Deutschen nicht-lokale
        a                                          ¨             o
    Abh¨ngigkeiten sind und mehr als eine Barriere uberspringen k¨nnen
    (2)
  [Karl hat mir [ein Bild [einer Frau t]] gegeben, [die schon lange tot ist].    (2)

      u                                                 u
    M¨ller & Meurers (2006) zeigen, wie man Belege hierf¨r in Korpora
    finden kann:
                                       o
    [...] die Erfindung der Guillotine k¨nnte [NP die Folge [NP eines verzweifelten
    Versuches des gleichnamigen Doktores ] gewesen sein, [seine Patienten ein
     u
    f¨r allemal von Kopfschmerzen infolge schlechter Kissen zu befreien].
    TIGER Baumbank
                                                        u
    ⇒ zeigt, dass das Subjazenzprinzip nicht universal g¨ltig ist

                                                                                  nclt



    Ines Rehbein (SS08)             Baumbanken                      April 2008   12 / 55
Beispiel II: Partikelverben           u
                                    (M¨ller & Meurers, 2006)




                            o
    Theorie: Verbpartikeln k¨nnen nicht vorangestellt werden
                  a
    (Ausnahme: pr¨dikative Partikeln wie auf in aufmachen)

    Korpusevidenz:
    LosPART ging es schon in dieser Woche.             (taz, 11.10.1995)
    VorPART hat er das jedenfalls.                     (taz, 15.07.1999)




                                                                             nclt



    Ines Rehbein (SS08)         Baumbanken                     April 2008   13 / 55
Beispiel III: Idiome          (Geyken, Sokirko, Rehbein & Fellbaum, 2004)


                           a                            a
    Theorie: klassische Ans¨tze betonen die Invariabilit¨t von Idiomen
    (Katz, 1973; Chomsky, 1980)

    Korpusevidenz: ein Blatt vor den Mund nehmen
       ◮   Pluralisierung:
               ⋆          a
                   ohne Bl¨tter vor den Mund zu nehmen
       ◮   Quantifizierung:
               ⋆   Hier nahm er manches Blatt vor den Mund
               ⋆                  a
                   der sich 100 Bl¨tter vor den Mund nimmt
       ◮   Adjektivische Modifikation eines oder beider Nomen:
               ⋆   mit einem postmodernen Blatt vor dem Munde
               ⋆   kein Blatt vor seinen republikfeindlichen Mund
       ◮   Nomen-Modifikation:
               ⋆   ohne das geringste (Klee-)Blatt vor den vorlauten Mund zu nehmen
                                                                                       nclt



    Ines Rehbein (SS08)                  Baumbanken                     April 2008    14 / 55
 o
K¨nnen Korpora Antworten auf linguistische
Fragestellungen geben?



                                                     u
   Korpora erweisen sich als fruchtbare Hilfsmittel f¨r linguistische
   Forschung:
      ◮       o           ¨     u
          erm¨glichen die Uberpr¨fung linguistischer Theorien
      ◮                a
          sinnvolle Erg¨nzung der Introspektion

   Daher steigender Bedarf nach
      ◮   mehr Daten
      ◮   mehr Annotation (Syntax, Semantik, Prosodie, Metadaten, ...)
      ◮   mehr Sprachen



                                                                               nclt



   Ines Rehbein (SS08)             Baumbanken                    April 2008   15 / 55
Teil I




  1       u
      Einf¨hrung
         ◮                             ¨
             Korpora - Geschichtlicher Uberblick
         ◮                 ¨
             Baumbanken - Uberblick
         ◮                u
             Baumbanken f¨rs Deutsche
         ◮   Treebanking




                                                                 nclt



      Ines Rehbein (SS08)             Baumbanken   April 2008   16 / 55
                u
Was sind und wof¨r braucht man Baumbanken?

   Baumbanken sind
      ◮   Korpora mit syntaktischen Annotationen
           u
          (¨ber Part-of-Speech Ebene hinausgehend)
      ◮            a
          Syntax-B¨ume a la Chomsky oder Dependenzen
      ◮   manuell erstellt oder
      ◮   automatisch erstellt und manuell korrigiert

   Baumbanken werden gebraucht zur
      ◮                                 a
          Untersuchung linguistischer Ph¨nomene
      ◮   ¨      u
          Uberpr¨fung linguistischer Theorien
      ◮   Ressourcen zum Training von Methoden des Maschinellen Lernens/
           u
          f¨r die Entwicklung von Sprachtechnologien:
              ⋆   Training und Evaluation von Parsern
              ⋆               u              ¨
                  Ressourcen f¨r Maschinelle Ubersetzung (Parallele Baumbanken)
              ⋆                                             u
                  Extraktion von Subkategorisierungsrahmen f¨r die Erstellung von Lexika
              ⋆   ...
                                                                                       nclt



   Ines Rehbein (SS08)                  Baumbanken                       April 2008   17 / 55
Erste Baumbanken
        a                   o
   Elleg˚rd (Englisch, Uni G¨teborg, 1978)
      ◮   128 000 Token des Brown Corpus of American English
      ◮   manuell annotiert mit einer Dependenzgrammatik (Francis and
          Kucera, 1979)
   Lancaster-Leeds Treebank (Englisch, 80er Jahre)
      ◮   4.5% des LOB Korpus (45 000 Token)
      ◮   ausgewogen (15 Textgenre)
      ◮   automatisch annotiert mit POS-tags
      ◮   handgeparst von G. Sampson
      ◮   basierend auf einer Phrasenstrukturgrammatik
      ◮   detaillierte Annotation
   LOB Corpus Treebank (English, Anfang 90er)
      ◮   automatisch und probabilistisch geparste, handkorrigierte Texte vom
          LOB Corpus
      ◮   144 000 Token
      ◮   weniger detallierte Annotation als die Lancaster-Leeds Treebank   nclt



   Ines Rehbein (SS08)             Baumbanken                     April 2008   18 / 55
Erste Baumbanken


   Susanne Corpus (Sampson)
   “Surface and underlying structural analysis of natural English”
      ◮   publiziert 1992
      ◮                                                   a
          128 000 Token des Brown Corpus (beinhaltet Elleg˚rd), ausgewogen
      ◮   Annotationsmaximen:
              ⋆         a
                  vollst¨ndig
              ⋆   explizit
              ⋆   “non-partisan” (theorie-neutral)
      ◮   3 Ebenen der Annotation:
              ⋆          a
                  Ober߬chenstruktur
              ⋆   Syntaktische Funktionen
              ⋆   logische (tiefe) Grammatik: ghost nodes (traces), Extrapositionen,
                           a
                  Relativ-S¨tze, Raising, WH-Fronting, ...

                                                                                        nclt



   Ines Rehbein (SS08)                  Baumbanken                        April 2008   19 / 55
Susanne Corpus

“Everything went real smooth”, the sheriff said.
 Reference          Status   Word    Word Form     Lemma        Parse
                             Class
 A01:1900.27        -        YIL     <ldquo>       -            [O[S.
 A01:1900.30        -        PN1     +Everything   everything   [Q:o[S[Ns:s.Ns:s]
 A01:1900.33        -        VVDi    went          go           [Vd.Vd]
 A01:1910.03        -        RG      real          real         [J:h.
 A01:1910.06        -        JJ      smooth        smooth       .J:h]S]Q:o]
 A01:1910.09        -        YIR     +<rdquo>      -            .
 A01:1910.12        -        YC      +,            -            .
 A01:1910.15        -        AT      the           the          [Ns:s.
 A01:1910.18        -        NNS1c   sheriff        sheriff       .Ns:s]
 A01:1910.21        -        VVDv    said          say          [Vd.Vd]S]
 A01:1910.24        -        YF      +.            -            .
 A01:1910.27        -        YIL     <ldquo>       -            .O]
                                                                                 nclt



    Ines Rehbein (SS08)              Baumbanken                    April 2008   20 / 55
Susanne Corpus - Annotation Scheme

             “        Everything went real smooth ”               ,
       [O[S.[Q : o[S[Ns : s.Ns : s][Vd.Vd][J : h..J : h]S]Q : o] . .
                              the sheriff said      .
                         [Ns : s.Ns : s][Vd.Vd]S]..O]

   Formtags
      ◮   Rootrank Formtags e.g. O - paragraph, Q - quotation
      ◮   Clausetags e.g. S - main clauses, Fa - adverbial clauses
      ◮   Phrasetags e.g. V - verb group, N - noun phrase, J - adjective phrase
          Vd - past tense, Jh - “heavy” (post-modified)
   Non-alphanumeric Formtag Suffixes               e.g. ? - interrogative clause
   Functiontags
      ◮   Complement Functiontags e.g. s - logical subject, a - agent of passive
      ◮   Adjunct Functiontags    e.g. t - time, m - modality, k - benefactive
                                                                              nclt
      ◮   Other Functiontags      e.g. n - participle of phrasal verb

   Ines Rehbein (SS08)              Baumbanken                      April 2008   21 / 55
Erste Baumbanken

   Penn Treebank (Englisch, 1989-1995)
   Phase I (1989-1992)
      ◮                                 a
          Wall Street Journal (50 000 S¨tze, 1 Mio. Worte)
      ◮      a
          Zus¨tzlich: geparste Version des Brown Korpus (1 Mio. Worte),
      ◮   Automatisch getagged (POS)
      ◮   Manuell annotiert mit Phrasen-Struktur (skeletal parse)


                (SBARQ (WHNP Who)
                        (SQ (NP T)
                           will
                           (VP come
                               (PP to
                                 (NP the party))))
                ?)
                                                                              nclt



   Ines Rehbein (SS08)             Baumbanken                   April 2008   22 / 55
Penn Treebank - Phase II (1993-1995)

      a
   Zus¨tzliche Annotation von grammatikalischen Funktionen
      ◮                                         o
          “tiefe” linguistische Information, erm¨glicht die Extraktion von
          Predikat-Argument-Struktur
      ◮   3 Arten von grammatikalischen Funktionen:
              ⋆   GFs, die auf rein syntaktischer Ebene definiert sind:
                  DTV, LGS, PRD, PUT, SBJ, TPC, VOC
              ⋆   Form/Funktions-Tags: ADV (klausale und NP-Adverbiale), NOM
                  (non-NP, die die Funktion einer NP hat)
              ⋆   Semantische Rollen: BNF, DIR, EXT, LOC, MNR, PRP, TMP SBJ,
                  MNR, TMP, LOC, PRD, ...
      ◮   Annotation von Spuren, Null-Elementen, Koreferenz
              ⋆   * “Ungesprochenes” Subjekt von Infinitiven oder Imperativen
              ⋆                                               a
                  0 Null-Variante von that in subordinierten S¨tzen
              ⋆   T markiert die Position, wo eine vorangestellte wh-Konstituente
                  interpretiert wird

                                                                                        nclt



   Ines Rehbein (SS08)                  Baumbanken                        April 2008   23 / 55
Penn Treebank - Phase II


                (SBARQ (WHNP-1 Who)
                       (SQ was
                         (NP-SBJ-2 *T*-1)
                         (VP believed
                           (S (NP-SBJ-3 *-2)
                              (VP to
                                (VP have
                                  (VP been
                                    (VP shot
                                    (NP *-3))))))))
                ?)


                                                                    nclt



   Ines Rehbein (SS08)           Baumbanken           April 2008   24 / 55
Penn Treebank - Phase II

               ( (S (PP-TMP (IN On)
                          (NP (NP (NNP Nov.) (CD 15) )
                            (, ,)
                            (SBAR-TMP (WHADVP-1 (WRB when) )
                                (S (NP-SBJ (NNS Brazilians) )
                                   (VP (VBP elect)
                                      (NP (DT a) (NN president) )
                                      (PP (IN for)
                                         (NP (NP (DT the) (JJ first) (NN time) )
                                            (PP-TMP (IN in)
                                               (NP (CJ 29) (NNS years) ))))
                                      (ADVP-TMP (-NONE- *T*-1) ))))))
                   (, ,)
                   (NP-SBJ (NP (DT the) (NN country) (POS ’s) )
                       (QP (CD 82) (CD million) )
                       (NNS voters) )
                   (VP (MD will)
                       (VP (VB have)
                          (NP (NP (CD 22) (NNS candidates) )
                            (SBAR (WHNP-2 (-NONE- 0) )
                                (S (NP-SBJ (-NONE- *) )
                                   (VP (TO to)
                                     (VP (VB choose)
                                        (PP-CLR (IN from)
                                           (NP (-NONE- *T*-2) )))))))))
                   (. .) ))

                                                                                                nclt



   Ines Rehbein (SS08)                          Baumbanken                        April 2008   25 / 55
Besonderheiten der Penn Treebank

                          u          a
   Flache Annotation e.g f¨r Nomen-Pr¨modifizierer
                   NP                        NP                                NP

                                       the        NN                    the          NN
     DT     JJ          NN    NN

     the    fast        car mechanic    JJ              N                 NN                NN

                                        fast      NN        NN     JJ          NN         mechanic

                                                  car   mechanic   fast        car


   VP-Argumente und Adjunkte auf der gleichen Ebene
   Keine detaillierte Analyse von NPs (Zeitersparnis, Konsistenz)
    (NP (NP the defense and electronics group Thomson-CSF S.A.)
          and
          (NP the bank group Credit Lyonnais))

                                                                                                               nclt



   Ines Rehbein (SS08)                            Baumbanken                                     April 2008   26 / 55
                             u
Bedeutung der Penn Treebank f¨r NLP


   Bislang: Parser mit handgeschriebenen Regeln
   (zeitaufwendig, geringe Abdeckung)
                                u
   Ende 80er: Erste Baumbanken f¨r linguistische Forschung
                                  o
   Anfang 90er: Penn Treebank erm¨glicht eine neue Herangehensweise
   an Parsing:
      ◮   Machine Learning Algorithmen
      ◮                                                  a
          Probabilistische Parser (robust, Ranking nach H¨ufigkeit der
          vorkommenden Strukturen)
                                u                              u
   Penn Treebank als Benchmark f¨r die Evaluation von Parsern f¨rs
   Englische


                                                                                nclt



   Ines Rehbein (SS08)             Baumbanken                     April 2008   27 / 55
Baumbanken: eine Auswahl
   Phrasenstruktur-Baumbanken
      ◮                       u
          NEGRA, TIGER, T¨Ba-D/Z (Deutsch)
      ◮   BulTreebank (Bulgarisch, HPSG)
      ◮   Penn Chinese Treebank
      ◮                             a
          Alpino Treebank (Niederl¨ndisch)
      ◮   Floresta sinta(c)tica (Portugiesisch)
      ◮   Cast3LB (Spanisch, Katalanisch)
      ◮   Eus3LB (Baskisch)
      ◮   Talbanken (Schwedisch)
      ◮   Penn Arabic Treebank
      ◮   ...
   Dependenz-Baumbanken:
      ◮   Tschechisch: Prague Dependency Treebank
      ◮   Prague Arabic Dependency Treebank
      ◮   Danish Dependency Treebank
      ◮   Slovene Dependency Treebank
      ◮   METU-Sabanci Turkish Treebank
      ◮   Kyoto Text Corpus (Japanisch)                           nclt

      ◮   ...
   Ines Rehbein (SS08)            Baumbanken        April 2008   28 / 55
Digitale Korpora / Baumbanken - Zwischenfazit

   Erste digitale Korpora seit Mitte 60er, erste syntaktisch annotierte
   digitale Korpora seit Anfang 80er
                         u
   Wichtige Hilfsmittel f¨r linguistische Forschung:
      ◮   ¨     u
          Uberpr¨fung linguistischer Theorien
      ◮                          a      u
          “Echte” Daten als Erg¨nzung f¨r Introspektion
   Penn Treebank als erstes großes, syntaktisch annotiertes Korpus
      o
   erm¨glicht neue Herangehensweisen in NLP, probabilistische
   Methoden gewinnen an Bedeutung
                                                            o
   “Tiefe” linguistische Annotation der Penn-II Treebank erh¨ht die
    u
   N¨tzlichkeit der Baumbank (Extraktion von
   Subkategorisierungsrahmen, etc.)
                                                   a
   Bedeutung von linguistisch annotierten Korpora w¨chst, Erstellung
                u
   von Korpora f¨r andere Sprachen, Ausweitung der Annotation
   (Syntax, Semantik, Koreferenzen, ...)                                   nclt



   Ines Rehbein (SS08)             Baumbanken                April 2008   29 / 55
Teil I




  1       u
      Einf¨hrung
         ◮                             ¨
             Korpora - Geschichtlicher Uberblick
         ◮                 ¨
             Baumbanken - Uberblick
         ◮                u
             Baumbanken f¨rs Deutsche
         ◮   Treebanking




                                                                 nclt



      Ines Rehbein (SS08)             Baumbanken   April 2008   30 / 55
            u
Baumbanken f¨rs Deutsche

                    u
   NEGRA (Uni Saarbr¨cken)
      ◮                          a
          350 000 Token (20 000 S¨tze) der Frankfurter Rundschau
              ⋆                          u
                  POS-Tags, Stuttgart-T¨bingen-Tagset (STTS)
              ⋆   syntaktischen Kategorien
              ⋆   grammatischen Funktionen
              ⋆                            u
                  morphologische Analyse (f¨r die ersten 60 000 Token)
   TIGER (Uni Stuttgart)
      ◮                          a
          900 000 Token (50 000 S¨tze) der Frankfurter Rundschau
              ⋆   POS-Tags (STTS), syntaktische Kategorien, grammatische Funktionen
              ⋆   morphologische Analyse
    u             u
   T¨Ba-D/Z (Uni T¨bingen)
      ◮                          a
          470 000 Token (20 000 S¨tze) der taz
              ⋆   POS-Tags (STTS), syntaktische Kategorien, grammatische Funktionen
              ⋆   morphologische Analyse

                                                                                       nclt



   Ines Rehbein (SS08)                 Baumbanken                        April 2008   31 / 55
Beispielbaum - TIGER Treebank




                                                    nclt



   Ines Rehbein (SS08)   Baumbanken   April 2008   32 / 55
General Bracketing Format


                   (
                         (S
                              (PDS-SB Die)
                              (VAFIN-HD sind)
                              (PP-MO
                                (APPRART-AC beim)
                                (NN-NK Postministerium)
                              )
                              (ADJD-PD vorhanden)
                         )
                         ($. .)
                   )

                                                                        nclt



   Ines Rehbein (SS08)                 Baumbanken         April 2008   33 / 55
General Bracketing Format

                   (
                         (S
                              (PDS-SB Die)
                              (VAFIN-HD sind)
                              (PP-MO
                                 (APPRART-AC beim)
                                 (NN-NK Postministerium)
                               )
                              (ADJD-PD vorhanden)
                         )
                         ($. .)
                   )

   Nichtterminale Knoten: S, VP, NP, PP, ...
                                                                         nclt



   Ines Rehbein (SS08)                 Baumbanken          April 2008   34 / 55
General Bracketing Format
                   (
                         (S
                              (PDS-SB Die)
                              (VAFIN-HD sind)
                              (PP-MO
                                (APPRART-AC beim)
                                (NN-NK Postministerium)
                              )
                              (ADJD-PD vorhanden)
                         )
                         ($. .)
                   )

   Nichtterminale Knoten: S, VP, NP, PP, ...
   Terminale Knoten: Die, sind, beim, ...                               nclt



   Ines Rehbein (SS08)                 Baumbanken         April 2008   35 / 55
General Bracketing Format
                   (
                         (S
                              (PDS-SB Die)
                              (VAFIN-HD sind)
                              (PP-MO
                                (APPRART-AC beim)
                                (NN-NK Postministerium)
                              )
                              (ADJD-PD vorhanden)
                         )
                         ($. .)
                   )
   Nichtterminale Knoten: S, VP, NP, PP, ...
   Terminale Knoten: Die, sind, beim, ...
   Part-of-Speech (POS) Tags: PDS, VAFIN, APPRART, NN, ...              nclt



   Ines Rehbein (SS08)                 Baumbanken         April 2008   36 / 55
General Bracketing Format
                   (
                         (S
                              (PDS-SB Die)
                              (VAFIN-HD sind)
                              (PP-MO
                                (APPRART-AC beim)
                                (NN-NK Postministerium)
                              )
                              (ADJD-PD vorhanden)
                         )
                         ($. .)
                   )
   Nichtterminale Knoten: S, VP, NP, PP, ...
   Terminale Knoten: Die, sind, beim, ...
   Part-of-Speech (POS) Tags: PDS, VAFIN, APPRART, NN, ...              nclt
   Grammatikalische Funktionen: SB, HD, OA, DA, AG, ...
   Ines Rehbein (SS08)                 Baumbanken         April 2008   37 / 55
           u
Stuttgart-T¨bingen Tag Set (STTS)




   54 Part-of-Speech-Kategorien
                            u
   entwickelt in Stuttgart/T¨bingen von Anne Schiller, Christine
                                          o
   Thielen, Simone Teufel und Christine St¨ckert (1995)
   http://www.ims.uni-stuttgart.de/projekte/corplex/TagSets/stts-
   table.html




                                                                         nclt



   Ines Rehbein (SS08)         Baumbanken                  April 2008   38 / 55
Probleme beim Taggen

   Partizip oder Adjektiv?
      ◮   Sie/PPER ist/VAFIN in/APPR Cottbus/NE geboren/ADJD.
      ◮   Sie/PPER wurde/VAFIN in/APPR Wien/NE geboren/VVPP.
      ◮                                   u
          Der/ART Tisch/NN wird/VAFIN verr¨ckt/VVPP.
      ◮                            u
          Ich/PPER werde/VAFIN verr¨ckt/?
              u
   Kriterien f¨r VVPP
      ◮   sein kann ohne großen semantischen Unterschied durch werden ersetzt
          werden
      ◮   Satz kann in den Aktiv umgeformt werden
      ◮   von-PP (logisches Subjekt)
              u
   Kriterien f¨r ADJD
      ◮              u
          Kriterien f¨r VVPP treffen nicht zu
      ◮                            a
          Partizip kann durch regul¨res Adjektiv ersetzt werden
                                                                                nclt



   Ines Rehbein (SS08)              Baumbanken                    April 2008   39 / 55
Probleme beim Taggen

   Partizip oder Adjektiv?
      ◮   Sie/PPER ist/VAFIN in/APPR Cottbus/NE geboren/ADJD.
      ◮   Sie/PPER wurde/VAFIN in/APPR Wien/NE geboren/VVPP.
      ◮                                   u
          Der/ART Tisch/NN wird/VAFIN verr¨ckt/VVPP.
      ◮                            u
          Ich/PPER werde/VAFIN verr¨ckt/?
              u
   Kriterien f¨r VVPP
      ◮   sein kann ohne großen semantischen Unterschied durch werden ersetzt
          werden
      ◮   Satz kann in den Aktiv umgeformt werden
      ◮   von-PP (logisches Subjekt)
              u
   Kriterien f¨r ADJD
      ◮              u
          Kriterien f¨r VVPP treffen nicht zu
      ◮                            a
          Partizip kann durch regul¨res Adjektiv ersetzt werden
                                                                                nclt



   Ines Rehbein (SS08)              Baumbanken                    April 2008   39 / 55
Probleme beim Taggen

   Partizip oder Adjektiv?
      ◮   Sie/PPER ist/VAFIN in/APPR Cottbus/NE geboren/ADJD.
      ◮   Sie/PPER wurde/VAFIN in/APPR Wien/NE geboren/VVPP.
      ◮                                   u
          Der/ART Tisch/NN wird/VAFIN verr¨ckt/VVPP.
      ◮                            u
          Ich/PPER werde/VAFIN verr¨ckt/?
              u
   Kriterien f¨r VVPP
      ◮   sein kann ohne großen semantischen Unterschied durch werden ersetzt
          werden
      ◮   Satz kann in den Aktiv umgeformt werden
      ◮   von-PP (logisches Subjekt)
              u
   Kriterien f¨r ADJD
      ◮              u
          Kriterien f¨r VVPP treffen nicht zu
      ◮                            a
          Partizip kann durch regul¨res Adjektiv ersetzt werden
                                                                                nclt



   Ines Rehbein (SS08)              Baumbanken                    April 2008   39 / 55
Probleme beim Taggen


   Verschiedene Funktionen von wie
      ◮   Es ist so, wie/KOUS es ist.
      ◮                                             u
          Die Gefahr ist viermal so groß wie/KOKOM f¨r den alkoholkranken
          Mann.
      ◮      a
          Erz¨hlt erstmal, wie/PWAV wichtig es ist.
      ◮               u
          Bei den Gr¨nen wie/KON in der SPD-Fraktion war der Entwurf
          umstritten.
      ◮   Es scheint eher um das “wie/NN” als um das “ob/NN” zu gehen.
   Kriterien
      ◮   Direkte Fragen mit wie: PWAV
      ◮   wie gefolgt von Verb-letzt-Satz: KOUS
      ◮   wie/KOKOM wird semantisch bestimmt


                                                                             nclt



   Ines Rehbein (SS08)            Baumbanken                   April 2008   40 / 55
Probleme beim Taggen


   Verschiedene Funktionen von wie
      ◮   Es ist so, wie/KOUS es ist.
      ◮                                             u
          Die Gefahr ist viermal so groß wie/KOKOM f¨r den alkoholkranken
          Mann.
      ◮      a
          Erz¨hlt erstmal, wie/PWAV wichtig es ist.
      ◮               u
          Bei den Gr¨nen wie/KON in der SPD-Fraktion war der Entwurf
          umstritten.
      ◮   Es scheint eher um das “wie/NN” als um das “ob/NN” zu gehen.
   Kriterien
      ◮   Direkte Fragen mit wie: PWAV
      ◮   wie gefolgt von Verb-letzt-Satz: KOUS
      ◮   wie/KOKOM wird semantisch bestimmt


                                                                             nclt



   Ines Rehbein (SS08)            Baumbanken                   April 2008   40 / 55
Probleme beim Taggen




   Adverb oder Adjektiv?
      ◮     u
          Fr¨her/ADV war ich Theater-Kritiker am BE.
      ◮                u
          Eine Woche fr¨her/ADJD als geplant ...




                                                                     nclt



   Ines Rehbein (SS08)            Baumbanken           April 2008   41 / 55
¨
Ubung - Kleingruppe

                               a
   Versehen Sie die folgenden S¨tze mit POS-Annotationen:

     (1)                  u                                     u
             Dies hatte fr¨her zum Missbrauch der Billigjobs gef¨hrt .

     (2)     An der kokslustigen Auguststraße ,
               u
             fr¨her kiffende Kantstraße ,
             liegt das “ Projekt ” auch goldrichtig !

     (3)           o
             Angeh¨rigen von in Bonn akkreditierten Mitarbeitern
             der demokratischen Medien Serbiens
             wird die Einreise jedoch verweigert .

     (4)          u
             ” Wof¨r wird gebombt , wenn Rambouillet tot ist ? ”


                                                                                  nclt



   Ines Rehbein (SS08)               Baumbanken                     April 2008   42 / 55
¨
Ubung - Kleingruppe
                               a
   Versehen Sie die folgenden S¨tze mit POS-Annotationen:

     (1)                             u
             Dies/PDS hatte/VAFIN fr¨her/ADV zum/APPRART Missbrauch/NN
                                      u
             der/ART Billigjobs/NN gef¨hrt/VVPP ./$.

     (2)     An/APPR der/ART kokslustigen/ADJA Auguststraße/NN ,$,
               u
             fr¨her/ADV kiffende/ADJA Kantstraße/NN ,$,
             liegt/VVFIN das/ART “/$( Projekt/NN ”/$(
             auch/ADV goldrichtig/ADJD !/$.

     (3)           o
             Angeh¨rigen/NN von/APPR in/APPR Bonn/NE
             akkreditierten/ADJA Mitarbeitern/NN
             der/ART demokratischen/ADJA Medien/NN Serbiens/NE
             wird/VAFIN die/ART Einreise/NN jedoch/ADV verweigert/VVPP ./$.

     (4)             u
             “/$( Wof¨r/PWAV wird/VAFIN gebombt/VVPP ,/$,
             wenn/KOUS Rambouillet/NE tot/ADJD ist/VAFIN ?/$. “/$(         nclt



   Ines Rehbein (SS08)            Baumbanken                 April 2008   43 / 55
NEGRA export format


 Begin Of Sentence
 #BOS 8021 0 1066832867 175 %% PO2AV
 Terminale Knoten:
 Wortform          Lemma           POS          Morph. Inf.     Label   Elternknoten
 Die               der             PDS          Nom.Pl.*        SB      501
 sind              sein            VAFIN        3.Pl.Pres.Ind   HD      501
 beim              bei             APPRART      Dat.Sg.Neut     AC      500
 Postministerium   Postministerium NN           Dat.Sg.Neut     NK      500
 vorhanden         vorhanden       ADJD         Pos             PD      501
 .                 –               $.           –               –       0
 Nicht-Terminale Knoten:
 #500              –               PP           –               MO      501
 #501              –               S            –               –       0
 End Of Sentence
 #EOS 8021




                                                                                       nclt



    Ines Rehbein (SS08)            Baumbanken                           April 2008   44 / 55
TIGER XML
<s id=“s8021”>
 <graph root=“s8021 VROOT”>
  <terminals>
   <t id=“s8021 1” word=“Die” lemma=“der” pos=“PDS” morph=“Nom.Pl.*” />
   <t id=“s8021 2” word=“sind” lemma=“sein” pos=“VAFIN” morph=“3.Pl.Pres.Ind” />
   <t id=“s8021 3” word=“beim” lemma=“bei” pos=“APPRART” morph=“Dat.Sg.Neut” />
   <t id=“s8021 4” word=“Postministerium” lemma=“Postministerium” pos=“NN” morph=“Dat.Sg.Neut” />
   <t id=“s8021 5” word=“vorhanden” lemma=“vorhanden” pos=“ADJD” morph=“Pos” />
   <t id=“s8021 6” word=“.” lemma=“–” pos=“$.” morph=“–” />
  </terminals>
  <nonterminals>
   <nt id=“s8021 500” cat=“PP”>
     <edge label=“AC” idref=“s8021 3” />
     <edge label=“NK” idref=“s8021 4” />
     </nt>
   <nt id=“s8021 501” cat=“S”>
     <edge label=“SB” idref=“s8021 1” />
     <edge label=“HD” idref=“s8021 2” />
     <edge label=“MO” idref=“s8021 500” />
     <edge label=“PD” idref=“s8021 5” />
   </nt>
   <nt id=“s8021 VROOT” cat=“VROOT”>
     <edge label=“–” idref=“s8021 501” />
     <edge label=“–” idref=“s8021 6” />
   </nt>
  </nonterminals>
 </graph>
</s>
                                                                                                        nclt



      Ines Rehbein (SS08)                       Baumbanken                                April 2008   45 / 55
                u
Beispielbaum - T¨Ba-D/Z Treebank




                                                    nclt



   Ines Rehbein (SS08)   Baumbanken   April 2008   46 / 55
                           u
Die Baumbanken: TIGER und T¨Ba-D/Z

   Textsorte: Deutscher Zeitungstext
   POS-Tagset: STTS

   Unterschiede in der Annotation:
      ◮                  a
          TIGER: keine un¨ren Knoten
      ◮   TIGER: kreuzende Kanten
      ◮    u
          T¨Ba-D/Z: Topologische Felder
      ◮                  u
          TIGER: flach, T¨Ba-D/Z: mehr hierarchisch

                         Anzahl   ∅ Satz-     Syntakt.     Gramm.        Nicht-Term.
                           a
                          S¨tze      a
                                    l¨nge   Kategorien   Funktionen   /Term. Knoten
    TIGER                 50474     17.46           25           44             0.47
     u
    T¨Ba-D/Z              27125     17.60           26           40             1.20


                                                                                          nclt



   Ines Rehbein (SS08)                      Baumbanken                      April 2008   47 / 55
Teil I




  1       u
      Einf¨hrung
         ◮                             ¨
             Korpora - Geschichtlicher Uberblick
         ◮                 ¨
             Baumbanken - Uberblick
         ◮                u
             Baumbanken f¨rs Deutsche
         ◮   Treebanking




                                                                 nclt



      Ines Rehbein (SS08)             Baumbanken   April 2008   48 / 55
Treebanking: Wie baue ich eine Baumbank


“Creating the requisite training corpus, or tree-bank, is a Herculean task”
Eugene Charniak (1997)

“Maximum working time on this task: 4-5 hours per day. Else danger of
going crazy.”                                      Martin Volk (2006)

    Treebanking ist extrem zeitaufwendig und kostenintensiv
    Daher: gutes Design und breite Anwendbarkeit der Baumbank
    wichtig!



                                                                             nclt



    Ines Rehbein (SS08)           Baumbanken                   April 2008   49 / 55
Treebanking: Erstellen von Baumbanken

                            a
   Design der Baumbank h¨ngt ab vom beabsichtigen Zweck
            o
   (sollte m¨glichst breit definiert sein aufgrund der hohen Kosten)
   Wichtige Designpunkte:
      ◮                                                       a          a
          Textauswahl (Textsorte, gesprochen/geschrieben, Repr¨sentativit¨t, ...)
      ◮   Linguistische Theorie hinter der Annotation
              ⋆           o                                    u
                  sollte m¨glichst theorieneutral sein, damit f¨r viele nutzbar
              ⋆   aber: wie sieht theorie-neutrale Syntax aus?
              ⋆                           o
                  außerdem: Theorie erh¨ht die Konsistenz
      ◮   Was wird annotiert?
          (Detailliertheit der linguistischen Annotation vs. Konsistenz)
              ⋆                                                            o
                  Set mit nur 3 verschiedenen non-terminalen Kategorien erm¨glicht
                                                          u
                  hohe Konsistenz, ist aber nur begrenzt n¨tzlich
   Extrem wichtig:
      ◮   Inter-Annotator-Agreement (Konsistenz)
      ◮   Dokumentation (Was wurde wie annotiert, wie wurde mit linguistischen
                   a
          Zweifelsf¨llen umgegangen?)                                       nclt



   Ines Rehbein (SS08)                   Baumbanken                         April 2008   50 / 55
             u
Hilfsmittel f¨rs Treebanking
    POS-Tagger, Chunker (erfordern manuelle Korrektur)
    Annotations-Tools
       ◮                       u
           Annotate (Uni Saarbr¨cken, 1998)
       ◮   TREPIL: Treebank Disambiguation Tool (Uni Bergen, AKSIS)
               ⋆   verbindet Grammatik-Erstellung mit Treebanking
    Suchtools:
       ◮   TIGERSearch
       ◮   tgrep

                                                        a
    Zeitaufwand: zwischen 2-5 Minuten pro Satz / 20-30 S¨tze pro
                 a
    Stunde (gesch¨tzt von Martin Volk, 2006)
    “A parsed subcorpus of over one million words was recently proofread
    at an average speed of approx. 4,000 words per annotator per hour.”
    (beinhaltet nicht die Disambiguierung von PP-Attachment)
    Marcus, Santorini and Marcinkiewicz (1993)                        nclt



    Ines Rehbein (SS08)                 Baumbanken                  April 2008   51 / 55
Was kann alles schiefgehn? Beispiel: Die P7T

                                             e
   Paris 7 Treebank (P7T, Uni Paris 7, Abeill´)
      ◮                             a
          580 000 Token (20 600 S¨tze) Zeitungstext (Le Monde)
      ◮   Phrasen-Struktur
      ◮        a          a       a
          die H¨lfte der S¨tze zus¨tzlich annotiert mit grammatikalischen
          Funktionen
   Hohe Anzahl an Fehlern aller Art in P7T
                                     u
   Modified French Treebank (MFT, Schl¨ter & Genabith, 2007)
      ◮                          a
          134 000 Token (4700 S¨tze) der P7T mit grammatischen Funktionen
      ◮   extensive Fehlerkorrektur und Restrukturierung der P7T
      ◮                                                         o
          MFT erzielt bessere Parsingergebnisse als die (5mal gr¨ßere) P7T

   “[...] quantity does not always make up for quality in statistical
   parsing.”                                     u
                                            (Schl¨ter & Genabith, 2007)
                                                                                 nclt



   Ines Rehbein (SS08)              Baumbanken                     April 2008   52 / 55
Referenzen I


    Korpora
      ◮ Graeme Kennedy. 1998. An Introduction to Corpus Linguistics. Longman.
      ◮ Corpus Linguistics. Tony McEnery and Andrew Wilson. Edinburgh Textbooks in
         Empirical Linguistics.
                  u
      ◮ Stefan M¨ller. 2004. Complex NPs, Subjacency, and Extraposition. Snippets 8,
         pages 10-11.
         http://www.cl.uni-bremen.de/∼stefan/Pub/subjacency.html
                  u
      ◮ Stefan M¨ller and Walt Detmar Meurers. 2006. Corpus Evidence for Syntactic
         Structures and Requirements for Annotations of Tree Banks. Proceedings of the
                                                  u
         Int. Conference on Linguistic Evidence. T¨bingen, Germany.
         http://purl.org/net/dm/papers/mueller-meurers-06.html
      ◮ Alexander Geyken, Alexej Sokirko, Ines Rehbein and Christiane Fellbaum. 2004.
         What is the Optimal Corpus Size for the Study of Idioms? Paper delivered at the
         Annual Meeting of the German Linguistic Society, Mainz, Germany.




                                                                                         nclt



   Ines Rehbein (SS08)                 Baumbanken                          April 2008   53 / 55
Referenzen II
    Baumbanken
      ◮ Penn Treebank: http://www.cis.upenn.edu/∼treebank
      ◮ Susanne: http://www.grsampson.net/RSue.html
      ◮ NEGRA: Skut, Wojciech, Brigitte Krann, Thorsten Brants, and Hans Uszkoreit.
        1997. An annotation scheme for free word order languages. In Proceedings of
        ANLP 1997, Washington, D.C.
      ◮ TIGER:
            ⋆ Brants, Sabine, and Silvia Hansen. 2002. Developments in the TIGER
              Annotation Scheme and their Realization in the Corpus. In Proceedings of
              the Third Conference on Language Resources and Evaluation (LREC 2002)
              pp. 1643-1649 Las Palmas.
            ⋆ Dipper, S., T. Brants, W. Lezius, O. Plaehn, and G. Smith. 2001. The
              TIGER Treebank. In Third Workshop on Linguistically Interpreted Corpora
              LINC-2001, Leuven, Belgium.
          u                                                          u
      ◮ T¨Ba-D/Z: Telljohann, Heike, Erhard W. Hinrichs, Sandra K¨bler, and Heike
                                               u
        Zinsmeister. 2005. Stylebook for the T¨bingen Treebank of Written German
           u                    u                              a u
        (T¨Ba-D/Z). Seminar f¨r Sprachwissenschaft, Universit¨t T¨bingen, Germany.
      ◮ POS-Tagging

                                                                                      u
            ⋆ Schiller, Anne, Simone Teufel, and Christine Thielen. 1995. Guidelines f¨r
              das Tagging deutscher Textcorpora mit STTS. Technical Report, IMS-CL,
                                                                                         nclt
              University Stuttgart, 1995.


    Ines Rehbein (SS08)                 Baumbanken                           April 2008   54 / 55
Referenzen III

    Treebanking
       ◮ Volk (2006)
          www.ling.su.se/dali/education/courses/corp lingo n/Lect 07bT reebank Intro.p
          http://www.ling.su.se/DaLi/education/courses/treebank course 2006/index.ht
       ◮ Eugene Charniak. 1997. Statistical Parsing with a Context-free Grammar and Word
          Statistics. Proceedings of the Fourteenth National Conference on Artificial
          Intelligence AAAI.Menlo Park, Ca.
       ◮ M. Marcus, B. Santorini, and M. Marcinkiewicz. 1993. Building a large annontated
          corpus of english: the penn treebank. Computational Linguistics, 19(2):313–330.
       ◮ Natalie Schluter and Josef van Genabith. 2007. Preparing, Restructuring and
          Augmenting a French Treebank: Lexicalised Parsing or Coherent Treebanks? The
          10th Conference of the Pacific Association of Computational Linguistics PACLING
          2007, 19-SEP-07 - 21-SEP-07, Melbourne Australia.
       ◮ Natalie Schluter and Josef van Genabith. 2007. Preparing, Restructuring and
          Augmenting a French Treebank: Lexicalised Parsing or Coherent Treebanks?. The
          10th Conference of the Pacific Association of Computational Linguistics PACLING
          2007, 19-SEP-07 - 21-SEP-07, Melbourne Australia.
                       e     c                             e
       ◮ Anne Abeill´, Fran¸ois Toussenel, and Martine Ch´radame. 2004. Corpus le monde:
          Annotations en constituants. guide pour les correcteurs. Technical report, LLF and
                               e
          UFRL and Universit´ Paris 7.
                                                                                       nclt



    Ines Rehbein (SS08)               Baumbanken                         April 2008   55 / 55

								
To top