Docstoc

Sitzung2

Document Sample
Sitzung2 Powered By Docstoc
					Korpuslinguistik für und mit
    Computerlinguistik

         Seminar SS 2003
 Sitzung 2: Corpora, Abfragetools

        Gerold Schneider
         Charakteristiken korpusbasierter
        computerlinguistischer Methoden

 Datenerwerb: Identifikation und Erwerb der Daten und
  Regeln kann (teil-)automatisch erfolgen
 Abdeckung: Alle im Trainingskorpus erscheinenden
  Phänomene werden abgedeckt (sofern korrekt identifiziert)
 Robustheit: Adaption an verrauschte Daten
 Portabilität: Prinzipiell auf jede Sprache übertragbar
 Evaluation: Wissenschaftliche Hypothesen und NLP-
  Systeme können präzise evaluiert werden


                  Gerold Schneider: Korpuslinguistik für
                          Computerlinguistik, II              2
       Charakteristiken korpusbasierter
      computerlinguistischer Methoden II

 Empirisches (beobachtungsbasiertes) wissenschaftliches
  Modell, prinzipiell abgekoppelt von Chomsky‘s
  explanatorischer Adäquatheit.




                  Gerold Schneider: Korpuslinguistik für
                          Computerlinguistik, II           3
                            Rohtextkorpora

Auch aus nicht annotierten Korpora können wertvolle Sprachgebrauchs-
  daten extrahiert werden, wie Wortlisten (Zipf), N-gramme, etc. Das
  reicht z.B. zur Sprachidentifikation. Um welche 3 Sprachen handelt es
  sich folgend wohl?
   Trigramme   DER ICH EIN NDE SCH DIE TEN END CHE UND
   Anzahl      1025   959 939     812      812 804       662    611   607   586

   Trigramme ENT LES EDE           DES QUE AIT LLE              SDE ION EME
   Anzahl      900    801   630     609    607 542 509          508   477   472

   Trigramme   THE AND ING ENT ION NTH TER INT OFT THA
   Anzahl      2069   819   607 487        428     381 367 357 355          355



                       Gerold Schneider: Korpuslinguistik für
                               Computerlinguistik, II                             4
      Computerlinguistische Verwendungen
             von Rohtextkorpora

   Lexikologie
   Terminologie
   Rechtschreibkorrektur
   Kollokationsforschung
   Unsupervisierte Syntaxakquisition
   Unsupervisierte Wortsinndisambiguierung
   Information Retrieval
   Allgemein: kontextbasierte Zugänge

                   Gerold Schneider: Korpuslinguistik für
                           Computerlinguistik, II           5
                  Annotierte Korpora

 Korpora können prinizipiell mit jeder denkbaren
  Information annotiert werden (phonologisch,
  morphologisch, syntaktisch, semantisch, pragmatisch, ...)
 Wir beschäftigen uns in erster Linie mit
  morphosyntaktischer Wortklasseninformation (part-of-
  speech) und syntaktischer Strukturinformation, für Deutsch
  und Englisch.
        Deutsch: NEGRA Korpus
        Englisch: Penn Treebank

                  Gerold Schneider: Korpuslinguistik für
                          Computerlinguistik, II               6
         Annotierung: part-of-speech, Penn

Pierre/NNP Vinken/NNP ,/, 61/CD years/NNS old/JJ ,/, will/MD join/VB
   the/DT board/NN as/IN a/DT nonexecutive/JJ director/NN Nov./NNP 29/CD

 CC      Coordinating conj.               RB         Adverb
 CD      Cardinal number                  RBR        Adverb, comparative
 DT      Determiner                       RBS        Adverb, superlative
 EX      Existential there                RP         Particle
 FW      Foreign word                     SYM        Symbol
 IN      Prep. or subord. Conj.
                                          TO         to
 JJ      Adjective
 JJR     Adjective, comparative           UH         Interjection
 JJS     Adjective, superlative           VB         Verb, base form
 LS      List item marker                 VBD        Verb, past tense
 MD      Modal                            VBG        Verb, gerund or pres. Part.
 NN      Noun, singular or mass           VBN        Verb, past participle
 NNS     Noun, plural                     VBP        Verb, non-3rd pers. sing. Pres.
 NP      Proper noun, singular            VBZ        Verb, 3rd person sing. Pres.
 NPS     Proper noun, plural              WDT        Wh-determiner
 PDT     Predeterminer
                                          WP         Wh-pronoun
 POS     Possessive ending
 PP      Personal pronoun                 WP$        Possessive wh-pronoun
 PP$     Possessive pronoun               WRB        Wh-adverb
                      Gerold Schneider: Korpuslinguistik für
                              Computerlinguistik, II                             7
             Annotierung: CFG-Syntax, Penn


( (S                                         ADJP   Adjective phrase
    (NP                                      ADVP   Adverb phrase
      (NP (NNP Pierre) (NNP Vinken) )        NP     Noun phrase
      (, ,)                                  PP     Prepositional phrase
      (ADJP                                  S      Simple declarative clause
        (NP (CD 61) (NNS years) )
                                             SBAR   Subordinate clause
        (JJ old) )
      (, ,) )                                SBARQ  Direct question introd. by wh-element
    (VP (MD will)                            SINV   Declarative sentence with subject-aux
      (VP (VB join)                                 inversion
        (NP (DT the) (NN board) )            SQ     Yes/no questions and subconstituent of
        (PP (IN as)                                 SBARQ excluding wh-element
          (NP (DT a) (JJ nonexecutive)       VP     Verb phrase
                    (NN director) ))         WHADVP Wh-adverb phrase
        (NP (NNP Nov.) (CD 29) )))           WHNP   Wh-noun phrase
    (. .) ))
                                             WHPP   Wh-prepositional phrase
                                             X      unknown or uncertain category


                        Gerold Schneider: Korpuslinguistik für
                                Computerlinguistik, II                                       8
                 Annotierung: Syntaktische Rollen

                                                  Text Categories
                                                  -HLN         headlines and datelines
( (S                                              -LST         list markers
    (NP-SBJ                                       -TTL         titles
      (NP (NNP Pierre) (NNP Vinken) )             Grammatical Functions
      (, ,)                                       -CLF         true clefts
      (ADJP                                       -NOM         non NPs that function as NPs
        (NP (CD 61) (NNS years) )                 -ADV         clausal and NP adverbials
        (JJ old) )
                                                  -LGS         logical subjects in passives
      (, ,) )
                                                  -PRD         non VP predicates
    (VP (MD will)
                                                  -SBJ         surface subject
      (VP (VB join)
        (NP (DT the) (NN board) )                 -TPC         topicalized and fronted constituents
        (PP-CLR (IN as)                           -CLR         closely related - see text
          (NP (DT a) (JJ nonexecutive)            Semantic Roles
                    (NN director) ))              -VOC         vocatives
        (NP-TMP (NNP Nov.) (CD 29) )))            -DIR         direction & trajectory
    (. .) ))                                      -LOC         location
                                                  -MNR         manner
                                                  -PRP         purpose and reason
                                                  -TMP         temporal phrases
                          Gerold Schneider: Korpuslinguistik für
                                  Computerlinguistik, II                                            9
                        Annotierung: NEGRA

((S                                                                    Legende (Auszug):
  (ADJD-MO Selten)
  (VVFIN-HD nehmen)
                                                                       •AC adpositional
  (NP-SB
                                                                       case marker
      (ART-NK die) (ADJA-NK großen) (NN-NK Plattenfirmen))
                                                                       •DA dative
  (NP-OA
      (ART-NK das) (ADJA-NK finanzielle) (NN-NK Risiko) (*T1*-OC -))
                                                                       •HD head
  (PP-MO                                                               •MO modifier
      (APPR-AC auf) (PRF-NK sich))                                     •NK noun kernel
  ($, ,)                                                               •OA accusative
  (VP-*T1*                                                             obj.
      (NP-DA                                                           •OC clausal object
           (ART-NK den) (NN-NK Arbeiten))                              •PD predicative
      (PP-MO                                                           •PM morphological
           (APPR-AC zu) (ART-NK einer) (NN-NK Veröffentlichung))       particle
      (VZ-HD                                                           •RC relative
            (PTKZU-PM zu) (VVINF-HD verhelfen))))                      clause
 ($. .))                                                               •SB subject
                                                                       •SBP passive
                                                                       subj.
                           Gerold Schneider: Korpuslinguistik für
                                   Computerlinguistik, II                             10
                    Struktur-Abfrage

Die Extraktion von Strukturen und syntaktischen
  Abhängigkeiten aus syntaktisch annotierten Korpora ist
  nicht trivial. Die folgenden Abfragetools werden näher
  vorgestellt:
 Tgrep und Tgrep2: text-basiert, UNIX Kommandi
 Tiger-Search: graphische Ausgabe, in Java, XML-basiert
 Prolog-Datenbank:




                  Gerold Schneider: Korpuslinguistik für
                          Computerlinguistik, II           11
                         Tgrep und Tgrep2

 Idee: grep for trees
 Tgrep2 gibt es für alle UNIX unter http://tedlab.mit.edu/~dr/Tgrep2/
 Eine einfache Abfragesprache über Strukturbeziehungen (Auszug):
            A   < B         A immediately dominates B
            A   < `B        A immediately dominates B, only print B
            A   <X B        B is the Xth child of A
            A   <- B        the last child of A is B
            A   << B        A dominates B
            A   <<, B       B is a leftmost descendant of A
            A   <<` B       B is a rightmost descendant of A
            A   .. B        A precedes B
            A   $ B         A and B are sisters
            A   $.. B       A and B are sisters and A precedes B
                        Gerold Schneider: Korpuslinguistik für
                                Computerlinguistik, II                   12
                       Tgrep - Beispiele

 Was bedeuten die folgenden Abfragen ? Funktionieren sie so wie
  erwartet?
   tgrep   'S < NP'
   tgrep   'VP < NP'
   tgrep   'VP < PP'
   tgrep   'NP < PP'
   tgrep   'PP < `IN << `/NN/'
   tgrep   'JJ .. NP'
   tgrep   'S < (NP-SBJ < PP)'
   tgrep   '`IN . (S < VP << `/VB/)'

 Tgrep-online-Abfragen über die Penn Treebank kann man stellen unter
  http://www.ldc.upenn.edu/ldc/online/treebank/

                     Gerold Schneider: Korpuslinguistik für
                             Computerlinguistik, II                     13
                  Tgrep - Echtweltbeispiel

Extraktion von lexikalischen Verb-Objekt – Beziehungen
 tgrep 'VP < NP' liefert Gesamtkonstituenten
 tgrep 'VP << `/VB/ < NP <<` `/NN/' liefert Köpfe, aber
  übergeneriert:
    (VP (VB bring)
        (NP (JJ new)
            (NN attention))
        (PP-DIR (TO to)
                (NP (DT the)
                     (NN problem))))
 tgrep 'VP << `/VB/ <(NP<- `/NN/)' liefert Köpfe, aber nur
  unkomplexe NPs
        alle Schachtelungsmöglichkeiten für NPs explizit auflisten

                      Gerold Schneider: Korpuslinguistik für
                              Computerlinguistik, II                  14
               Tgrep – Echtweltbeispiel II

tgrep 'VP << `/VB/ < (/NP$/|NP-PRD      <- `(/NN/|PRP|WDT|WP|CD))‚
tgrep 'VP << `/VB/ < (/NP$/|NP-PRD      <1 (NP <- `(/NN/|PRP|WDT|WP|CD)))‚
tgrep 'VP << `/VB/ < (/NP$/|NP-PRD      <1 (NP<1(NP <-
   `(/NN/|PRP|WDT|WP|CD))))'
tgrep 'VP << `/VB/ < (/NP$/|NP-PRD      <1 (NP<(NP<1(NP <-
   `(/NN/|PRP|WDT|WP|CD))))) '
tgrep 'VP << `/VB/ < (/NP$/|NP-PRD      <1 (NP<(NP<(NP<1(NP <-
   `(/NN/|PRP|WDT|WP|CD)))))) '
tgrep 'VP << `/VB/ < (/NP$/|NP-PRD      <1 (NP<(NP<(NP<(NP<1(NP <-
   `(/NN/|PRP|WDT|WP|CD))))))) '

 Köpfe können auch Pronomina oder Zahlen sein (PRP, WDT, WP , CD)
 Zusätzliche Einschränkungen (<1) wegen Konjunktionen
 Kopularverb-Komplemente (NP-PRD) werden als Objekte verstanden


                      Gerold Schneider: Korpuslinguistik für
                              Computerlinguistik, II                         15
              Tgrep – Echtweltbeispiel III

 Je nach grammatischer Auffassung gibt es noch weitere Objekte:

(VP (VBN elected)
    (S (NP-SBJ (-NONE- *-10))
       (NP-PRD (DT a)
               (NN director))))

(VP (VB call)
    (S (NP-SBJ (-NONE- *T*-1))
       (NP-PRD (DT a)
               (`` ``)
               (NN game))))




                      Gerold Schneider: Korpuslinguistik für
                              Computerlinguistik, II               16
                                       Tiger-Search

 XML-basierte, graphische Abfrageumgebung für Strukturabfragen in Java
> l labeled direct dominance
                      [cat="NP"] >1 [cat="NP"]
> direct dominance
                      [cat="NP"] > [pos="NE"]
> * dominance
                      [cat="NP"] >* [pos="NE"]
> n dominance, distance n
                      [cat="NP"] >2 [pos="NE"]
> m,n dominance, distance m...n
                      [cat="NP"] >2,3 [pos="NE"]
> @l left corner
                      [cat="NP"] >@l [word="etwas"]
> @r right corner
                      [cat="NP"] >@r [word="Kohl"]
 $ siblings
                      [word="etwas"] $ [cat="NP"]
 $.* siblings with precedence
                      [word="etwas"] $.* [cat="NP"]
                               Gerold Schneider: Korpuslinguistik für
                                       Computerlinguistik, II             17
Tiger-Search: Graphische Ausgabe




       Gerold Schneider: Korpuslinguistik für
               Computerlinguistik, II           18
               Tiger-Search: XML-Export

Aufgrund der XML-Basierung bietet Tiger-Search viele Exportformate.
  Z.B. ein Ergebnis einer 'VP > NP' Objekts-Anfrage:
 Sentences (im Treebank-Format):
   (S (NP-SBJ (PRP it)) (VP (VBZ does) (RB n't) (VP (VB take) (NP (NN
   place)) (PP (IN in) (NP (NP (DT an) (NN atmosphere)) (PP (IN of) (NP
   (ADJP (JJ correct) (CC and) (JJ acute)) (NN boredom)))) ...

 Variables and their tokens:
   #intvN2:    place
   #intvN1:    take place in an atmosphere of correct and acute boredom




                      Gerold Schneider: Korpuslinguistik für
                              Computerlinguistik, II                      19

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:3
posted:4/5/2013
language:German
pages:19