Semantic by wufengmei007

VIEWS: 0 PAGES: 110

									Representing Meaning



        Lecture 19
       13 Sep 2007
Semantic Analysis

p   Semantic analysis is the process of taking in some 
    linguistic input and assigning a meaning representation 
    to it.
      n There a lot of different ways to do this that make more 
        or less (or no) use of syntax
      n We’re going to start with the idea that syntax does 
        matter
        p   The compositional rule-to-rule approach
p   Compositional Semantics
     n Syntax-driven methods of assigning semantics to 
       sentences
Semantic Processing
p   We’re going to discuss 2 ways to attack this problem 
    (just as we did with parsing)
     n There’s the theoretically motivated correct and 
       complete approach…
         p   Computational/Compositional Semantics
             Create a FOL representation that accounts for all the entities, 
             roles and relations present in a sentence.
    n   And there are practical approaches that have some 
        hope of being useful and successful.
         p   Information extraction
             Do a superficial analysis that pulls out only the entities, 
             relations and roles that are of interest to the consuming 
             application.
Compositional Analysis

p   Principle of Compositionality
     n The meaning of a whole is derived from the meanings 
       of the parts
p   What parts?
     n The constituents of the syntactic parse of the input
p   What could it mean for a part to have a meaning?
Better
 p   Turns out this representation isn’t quite as useful as it 
     could be.
      n Giving(John, Mary, Book)
 p   Better would be one where the “roles” or “cases” are 
     separated out.  E.g., consider:
       $ x , y Giving ( x )^ Giver ( John , x )^ Given ( y , x )
                ^ Givee ( Mary, x )^ Isa ( y , Book )


 p   Note: essentially Giver=Agent, Given=Theme, 
     Givee=To-Poss
Predicates

p   The notion of a predicate just got more complicated…

p   In this example, think of the verb/VP providing a template like 
    the following




p   The semantics of the NPs and the PPs in the sentence plug into 
    the slots provided in the template
Advantages

p   Can have variable number of arguments associated with an 
    event: events have many roles and fillers can be glued on as 
    appear in the input.
p   Specifies categories (e.g., book) so that we can make 
    assertions about categories themselves as well as their 
    instances.  E.g., Isa(MobyDick, Novel), AKO(Novel, Book).
p   Reifies events so that they can be quantified and related to 
    other events and objects via sets of defined relations.
p   Can see logical connections between closely related examples 
    without the need for meaning postulates.
Example
p   AyCaramba serves meat
Compositional Analysis
Augmented Rules
p   We’ll accomplish this by attaching semantic formation rules to our 
    syntactic CFG rules
p   Abstractly




p   This should be read as the semantics we attach to A can be 
    computed from some function applied to the semantics of A’s 
    parts.
Example
p   Easy parts…                 p   Attachments
    n   NP -> PropNoun              {PropNoun.sem}
    n   NP -> MassNoun              {MassNoun.sem}
    n   PropNoun -> AyCaramba       {AyCaramba}
    n   MassMoun -> meat            {MEAT}
Example
p   S -> NP VP       p   {VP.sem(NP.sem)}
p   VP -> Verb NP    p   {Verb.sem(NP.sem)
p   Verb -> serves   p   ???
Lambda Forms
p   A simple addition to FOPC
     n Take a FOPC sentence 
        with variables in it that are 
        to be bound.
     n Allow those variables to be 
        bound by treating the 
        lambda form as a function 
        with formal arguments
Example
Example
Example
Example
    Syntax/Semantics Interface: 
    Two Philosophies
•      Let the syntax do what syntax does well and don’t expect it to 
       know much about meaning
     n    In this approach, the lexical entry’s semantic attachments 
          do all the work
•      Assume the syntax does know something about meaning
     •    Here the grammar gets complicated and the lexicon 
          simpler (constructional approach)
Example

p   Mary freebled John the nim.


        p   Who has it?

        p   Where did he get it from?
        p   Why?
Example

p   Consider the attachments for the VPs
     VP -> Verb  NP NP rule   (gave Mary a book)
     VP -> Verb NP PP         (gave a book to Mary)

    Assume the meaning representations should be the 
      same for both. Under the lexicon-heavy scheme, the 
      VP attachments are:
      VP.Sem (NP.Sem, NP.Sem)
      VP.Sem (NP.Sem, PP.Sem)
Example
p   Under a syntax-heavy scheme we might want to do 
    something like
p VP -> V NP NP
                   V.sem ^ Recip(NP1.sem) ^ Object(NP2.sem)
p VP -> V NP PP
                   V.Sem ^ Recip(PP.Sem) ^ Object(NP1.sem)
p i.e the verb only contributes the predicate, the grammar 
    “knows” the roles. 
Integration

p   Two basic approaches
     n Integrate semantic analysis into the parser (assign 
       meaning representations as constituents are 
       completed)
     n Pipeline… assign meaning representations to 
       complete trees only after they’re completed
Semantic Augmentation to CFG Rules

p   CFG Rules are attached with semantic attachments.
p   These semantic attachments specify how to compute the meaning 
    representation of a construction from the meanings of its constituent parts.

p   A CFG rule with semantic attachment will be as follows:

         A ® a1,…,an                 { f(aj.sem,…,ak.sem) }

p   The meaning representation of A, A.sem, will be calculated by applying the 
    function f to the semantic representations of some constituents.
Naïve Approach
ProperNoun ® Anarkali           {Anarkali }
MassNoun ® meat                 { Meat }
NP ® ProperNoun                 {ProperNoun.sem }
NP ® MassNoun                   { MassNoun.sem }
Verb ® serves    {$e,x,y ISA(e,Serving) Ù Server(e,x) Ù  Served(e,y) }

p   But we cannot propagate this representation to upper levels.
Using Lambda Notations
ProperNoun ® Anarkali   { Anarkali }
MassNoun ® meat         { Meat }
NP ® ProperNoun         {ProperNoun.sem }
NP ® MassNoun           { MassNoun.sem }
Verb ® serves  {lxly $e ISA(e,Serving) Ù Server(e,y) Ù Served(e,x) }
VP ® Verb NP  { Verb.sem(NP.sem) }
S ®  NP VP     { VP.sem(NP.sem) }




   application of lambda expression                lambda expression
Quasi-Logical Form
p   During semantic analysis, we may use quantified expressions as terms.  In 
    this case, our formula will not be a FOPC formula. We call this form of 
    formulas as quasi-logical form.
p   A quasi-logical form should be converted into a normal FOPC formula by 
    applying simple syntactic translations.

    Server(e,<$x ISA(x,Restaurant)>)         a quasi-logical formula

                  ß
    $x ISA(x,Restaurant ) Ù Server(e,x)      a normal FOPC formula
Parse Tree with Logical Forms
                        S
            write(bertrand,principia)




    NP                                   VP
 bertand                       ly.write(y,principia)



 bertrand
                         V                   NP
                 lx.ly.write(y,x)        principia


                      writes              principia
Pros and Cons

p   If you integrate semantic analysis into the parser as it is 
    running…
     n You can use semantic constraints to cut off parses 
        that make no sense
     n But you assign meaning representations to 
        constituents that don’t take part in the correct (most 
        probable) parse
Complex Terms

p   Allow the compositional system to pass around representations 
    like the following as objects with parts:

    Complex-Term         →    <Quantifier var body>
Example
p   Our restaurant example winds up looking like




p   Big improvement…
Conversion

p   So… complex terms wind up being embedded inside 
    predicates. So pull them out and redistribute the parts in 
    the right way…

    P(<quantifier, var, body>)
    turns into
    Quantifier var body connective P(var)
Example
Quantifiers and Connectives

p   If the quantifier is an existential, then the connective is 
    an ^ (and)

p   If the quantifier is a universal, then the connective is an
      -> (implies)
Multiple Complex Terms

p   Note that the conversion technique pulls the quantifiers 
    out to the front of the logical form…
p   That leads to ambiguity if there’s more than one complex 
    term in a sentence.
Quantifier Ambiguity
p   Consider
     n Every restaurant has a menu


    n   That could mean that 
         every restaurant has a menu
    n   Or that
         There’s some uber-menu out there and all restaurants have 
           that menu
Quantifier Scope Ambiguity
Ambiguity

p   This turns out to be a lot like the prepositional phrase 
    attachment problem
p   The number of possible interpretations goes up 
    exponentially with the number of complex terms in the 
    sentence
p   The best we can do is to come up with weak methods to 
    prefer one interpretation over another
Non-Compositionality

p   Unfortunately, there are lots of examples where the 
    meaning (loosely defined) can’t be derived from the 
    meanings of the parts

    n   Idioms, jokes, irony, sarcasm, metaphor, metonymy, 
        indirect requests, etc
English Idioms

p   Kick the bucket, buy the farm, bite the bullet, run the 
    show, bury the hatchet, etc…
p   Lots of these… constructions where the meaning of the 
    whole is either 
     n Totally unrelated to the meanings of the parts (kick 
       the bucket)
     n Related in some opaque way (run the show)
The Tip of the Iceberg

p    Describe this construction
    – A fixed phrase with a particular meaning
    – A syntactically and lexically flexible phrase with a 
       particular meaning
    – A syntactically and lexically flexible phrase with a 
       partially compositional meaning
    – …
Example
p   Enron is the tip of the iceberg.
     NP -> “the tip of the iceberg”
p   Not so good… attested examples…
     n the tip of Mrs. Ford’s iceberg
     n the tip of a 1000-page iceberg
     n the merest tip of the iceberg
p   How about
     n That’s just the iceberg’s tip.
Example

p   What we seem to need is something like
p   NP ->
      An initial NP with tip as its head followed by
       a subsequent PP with of as its head and that has 
       iceberg as the head of its NP
     And that allows modifiers like merest, Mrs. Ford, and 
       1000-page to modify the relevant semantic forms
Quantified Phrases

p   Consider 
        A restaurant serves meat.
p   Assume that A restaurant looks like



p   If we do the normal lambda thing we get
Semantic analysis

p   Goal: to form the formal structures from smaller pieces

p   Three approaches:
     n Syntax-driven semantic analysis
     n Semantic grammar
     n Information extraction: filling templates
Semantic grammar
p   Syntactic parse trees only contain parts that are unimportant in 
    semantic processing.

p   Ex: Mary wants to go to eat some Italian food

p   Rules in a semantic grammar
     n InfoRequest èUSER want to go to eat FOODTYPE
     n FOODTYPEèNATIONALITY FOODTYPE
     n NATIONALITYèItalian/Mexican/….
Semantic grammar (cont)

Pros:
p No need for syntactic parsing
p Focus on relevant info
p Semantic grammar helps to disambiguate


Cons:
p The grammar is domain-specific.
Information extraction
p   The desired knowledge can be described by a relatively simple and 
    fixed template.

p   Only a small part of the info in the text is relevant for filling the 
    template.

p   No full parsing is needed: chunking, NE tagging, pattern matching, 
    …

p   IE is a big field: e.g., MUC. KnowItAll
Summary of semantic analysis

p   Goal: to form the formal structures from smaller pieces

p   Three approaches:
     n Syntax-driven semantic analysis
     n Semantic grammar
     n Information extraction
Lexical Semantics
Meaning
p   Traditionally, meaning in language has been studied from 
    three perspectives
     n   The meaning of a text or discourse
     n   The meanings of individual sentences or utterances
     n   The meanings of individual words

p   We started in the middle, now we’ll look at the meanings of
     individual words.
Word Meaning
p   We didn’t assume much about the meaning of words when
     we talked about sentence meanings
     n Verbs provided a template-like predicate argument structure
     n Nouns were practically meaningless constants


p   There has be more to it than that
     n The internal structure of words that determines 
       where they can go and what they can do (syntagmatic)
What’s a word?
p   Words?: Types, tokens, stems, roots, inflected forms?

p   Lexeme – 
        An entry in a lexicon consisting of a pairing of a form with 
        a single meaning representation

p   Lexicon - A collection of lexemes
Lexical Semantics
p   The linguistic study of  systematic meaning related structure of  
    lexemes is called Lexical Semantics.
p   A lexeme is an individual entry in the lexicon. 
p   A lexicon is meaning structure holding meaning relations of 
    lexemes. 
p   A lexeme may have different meanings. A lexeme’s meaning 
    component is known as one of its senses.
     n   Different senses of the lexeme duck.
          p   an animal, to lower the head, ... 
     n   Different senses of the lexeme yüz 
          p    face, to swim, to skin, the front of something, hundred, ...
Relations Among Lexemes and 
Their Senses

   p   Homonymy

   p   Polysemy

   p   Snonymy

   p   Hyponymy

   p   Hypernym
Homonymy
p   Homonymy is a relation that holds between words having the same form 
    (pronunciation, spelling) with unrelated meanings.
     n   Bank -- financial institution, river bank
     n   Bat --  (wooden stick-like thing) vs (flying scary mammal thing)
     n   Fluke –
          p   A fish, and a flatworm. 
          p   The end parts of an anchor. 
          p   The fins on a whale's tail. 
          p   A stroke of luck. 
p   Homograph disambiguation is critically important in speech
    synthesis, natural language processing and other fields. 
Polysemy
p   Polysemy is the phenomenon of multiple related meanings in a same 
    lexeme.
    n   Bank -- financial institution, blood bank, a synonym for 'rely upon' 
        -- these senses are related. 
    •   "I'm your friend, you can bank on me"
    •   While some banks furnish sperm only to married women, others are 
        less restrictive
    •   However: a river bank is a homonym to 1 and 2, as they do not share 
        etymologies. It is a completely different meaning
    n   Mole - a small burrowing mammal 
p   several different entities called moles which refer to different things, but their 
    names derive from 1.
    e.g. A Mole (espionage) burrows for information hoping to go undetected. .
Polysemy
p   Milk 
     n The verb milk (e.g. "he's milking it for all he can get") derives from the 
        process of obtaining milk. 

p   Lexicographers define polysemes within a single dictionary lemma, 
    numbering different meanings, while homonyms are treated in separate 
    lemmata. 

p   Most non-rare words have multiple meanings
p   The number of meanings is related to its frequency
p   Verbs tend more to polysemy
p   Distinguishing polysemy from homonymy isn’t always easy 
    (or necessary)
Synonymy
p   Synonymy is the phenomenon of two different lexemes having 
    the same meaning.
     n Big and large
     n In fact, one of the senses of two lexemes are same.
p   There aren’t any true synonyms.
     n Two lexemes are synonyms if they can be successfully substituted 
        for each other in all situations
     n What does successfully mean?
         p   Preserves the meaning
         p   But may not preserve the acceptability based on notions of politeness, slang, 
             ...
p   Example - Big and large?
     n That’s my big sister                        a big plane
     n That’s my large sister                      a large plane
Hyponymy and Hypernym 
p   Hyponymy: one lexeme denotes a subclass of the other lexeme.
p   The more specific lexeme is a hyponymy of the more general lexeme. 
p   The more general lexeme is a hypernym of the more specific lexeme.

p   A hyponymy relation can be asserted between two lexemes when the 
    meanings of the lexemes entail a subset relation
     n Since dogs are canids
          p   Dog is a hyponym of canid and
          p   Canid is a hypernym of dog
     n   Car is a hyponymy of vehicle,  vehicle is a hypernym of car.
Ontology

p   The term ontology refers to a set of distinct objects resulting from 
    analysis of a domain.
p   A taxonomy is a particular arrangements of the elements of                 
    an ontology into a tree-like class inclusion structure.
p   A lexicon holds different senses of lexemes together with other  
    relations among lexemes.
Lexical Resourses

p   There are lots of lexical resources available 
     n Word lists
     n On-line dictionaries
     n Corpora
p   The most ambitious one is WordNet
     n A database of lexical relations for English
     n Versions for other languages are under development
WordNet
p   WordNet is widely used lexical database for English.
p   WebPage:  http://www.cogsci.princeton.edu/~wn/
p   It holds:
      n The senses of the lexemes
      n holds relations among nouns such as hypernym, hyponym, MemberOf, 
         ..
      n Holds relations among verbs such as hypernym, …
      n Relations are held for each different senses of a lexeme.
WordNet Relations

p   Some of WordNet Relations (for nouns)
WordNet Hierarchies
p   Hyponymy chains for the senses of the lexeme bass
WordNet - bass
p   The noun "bass" has 8 senses in WordNet.
    1. bass -- (the lowest part of the musical range)
    2. bass, bass part -- (the lowest part in polyphonic music)
    3. bass, basso -- (an adult male singer with the lowest voice)
    4. sea bass, bass -- (the lean flesh of a saltwater fish of the family Serranidae)
    5. freshwater bass, bass -- (any of various North American freshwater fish with 
    lean flesh (especially of the genus Micropterus))
    6. bass, bass voice, basso -- (the lowest adult male singing voice)
    7. bass -- (the member with the lowest range of a family of musical instruments)
    8. bass -- (nontechnical name for any of numerous edible marine and freshwater 
    spiny-finned fishes)

p   The adjective "bass" has 1 sense in WordNet.
    1. bass, deep -- (having or denoting a low vocal or instrumental range; "a deep 
    voice"; "a bass voice is lower than a baritone voice"; "a bass clarinet")
   WordNet –bass Hyponyms
Results for "Hyponyms (...is a kind of this), full" search of noun "bass"
    6 of 8 senses of bass                                                   
    Sense 2
    bass, bass part -- (the lowest part in polyphonic music)
           => ground bass -- (a short melody in the bass that is constantly repeated)
           => thorough bass, basso continuo -- (a bass part written out in full and accompanied by figures for successive chords)
           => figured bass -- (a bass part in which the notes have numbers under them to indicate the chords to be played)
    Sense 4
    sea bass, bass -- (the lean flesh of a saltwater fish of the family Serranidae)
           => striped bass, striper -- (caught along the Atlantic coast of the United States)
    Sense 5
    freshwater bass, bass --
     (any of various North American freshwater fish with lean flesh (especially of the genus Micropterus))
           => largemouth bass -- (flesh of largemouth bass)
           => smallmouth bass -- (flesh of smallmouth bass)
    Sense 6
    bass, bass voice, basso -- (the lowest adult male singing voice)
           => basso profundo -- (a very deep bass voice)
    Sense 7
    bass -- (the member with the lowest range of a family of musical instruments)
           => bass fiddle, bass viol, bull fiddle, double bass, contrabass, string bass --
     (largest and lowest member of the violin family)
           => bass guitar -- (the lowest six-stringed guitar)
           => bass horn, sousaphone, tuba -- (the lowest brass wind instrument)
               => euphonium -- (a bass horn (brass wind instrument) that is the tenor of the tuba family)
               => helicon, bombardon -- (a tuba that coils over the shoulder of the musician)
           => bombardon, bombard -- (a large shawm; the bass member of the shawm family)
    Sense 8
    bass -- (nontechnical name for any of numerous edible marine and freshwater spiny-finned fishes)
           => freshwater bass -- (North American food and game fish)
WordNet – bass Synonyms
Results for "Synonyms, ordered by estimated frequency" search of noun "bass"
    8 senses of bass                                                        
    Sense 1
    bass -- (the lowest part of the musical range)
           => low pitch, low frequency -- (a pitch that is perceived as below other pitches)
    Sense 2
    bass, bass part -- (the lowest part in polyphonic music)
           => part, voice --
     (the melody carried by a particular voice or instrument in polyphonic music; "he tried to sing the tenor part")
    Sense 3
    bass, basso -- (an adult male singer with the lowest voice)
           => singer, vocalist, vocalizer, vocaliser -- (a person who sings)
    Sense 4
    sea bass, bass -- (the lean flesh of a saltwater fish of the family Serranidae)
           => saltwater fish -- (flesh of fish from the sea used as food)
    Sense 5
    freshwater bass, bass --
     (any of various North American freshwater fish with lean flesh (especially of the genus Micropterus))
           => freshwater fish -- (flesh of fish from fresh water used as food)
    Sense 6
    bass, bass voice, basso -- (the lowest adult male singing voice)
           => singing voice -- (the musical quality of the voice while singing)
    Sense 7
    bass -- (the member with the lowest range of a family of musical instruments)
           => musical instrument, instrument --
     (any of various devices or contrivances that can be used to produce musical tones or sounds)
    Sense 8
    bass -- (nontechnical name for any of numerous edible marine and freshwater spiny-finned fishes)
Internal Structure of Words
p   Paradigmatic relations connect lexemes together in particular ways 
    but don’t say anything about what the meaning representation of 
    a particular lexeme should consist of.

p   Various approaches have been followed to describe 
    the semantics of lexemes. 
     n Thematic roles in predicate-bearing lexemes
     n Selection restrictions on thematic roles
     n Decompositional semantics of predicates
     n Feature-structures for nouns
Thematic Roles
p   Thematic roles provide a shallow semantic language for characterizing 
    certain arguments of verbs.
p   For example:
     n Ali broke the glass.
     n Veli opened the door.
p   Ali is Breaker and the glass is BrokenThing of Breaking event; 
p   Veli is Opener and the door is OpenedThing of Opening event. 
p   These are   deep roles of arguments of events.
p   Both of these events have actors which are doer of a volitional event, and 
    things affected by this action. 
p   A thematic role is a way of expressing this kind of commonality.
p   AGENT and THEME are thematic roles.
Some Thematic Roles
AGENT --The volitional causer of an event -- She broke the door
EXPERIENCER -- The experiencer of an event -- Ali has a headache.
FORCE -- The non-volitional causer of an event -- The wind blows it.
THEME -- The participant most directly effected by an event -- 
                 She broke the door.
INSTRUMENT -- An instrument used in an event -- 
                 He opened it with a knife.
BENEFICIARY -- A beneficiary of an event -- I bought it for her.
SOURCE -- The origin of the object of a transfer event -- 
                 I flew from Rome.
GOAL -- The destination of the object of a transfer event -- 
                 I flew to Ankara.
Thematic Roles (cont.)
p   Takes some of the work away from the verbs. 
p   It’s not the case that every verb is unique and has to completely   
    specify how all of its arguments uniquely behave.
p   Provides a mechanism to organize semantic processing
p   It permits us to distinguish near surface-level semantics 
    from deeper semantics
Linking
p   Thematic roles, syntactic categories and their positions in larger syntactic 
    structures are all intertwined in complicated ways. 
p   For example…
     n   AGENTS are often subjects
     n   In a VP->V NP NP rule, the first NP is often a GOAL 
         and the second a THEME
Deeper Semantics
p   He melted her reserve with a husky-voiced paean to her eyes.

p   If we label the constituents He and her reserve as the Melter and 
    Melted, then those labels lose any meaning they might have had.
p   If we make them Agent and Theme then we don’t have the same 
    problems
Selectional Restrictions
p   A selectional restriction augments thematic roles by allowing lexemes to 
    place certain semantic restrictions on the lexemes and phrases can 
    accompany them in a sentence.
     n I want to eat someplace near Bilkent.
     n Now we can say that eat is a predicate that has an AGENT and a 
        THEME
     n And that the AGENT must be capable of eating and the THEME must 
        be capable of 
        being eaten

p   Each sense of a verb can be associated with selectional restrictions.
     n THY serves NewYork.  -- direct object (theme) is a place
     n THY serves breakfast. -- direct object (theme) is a meal.
p   We may use these selectional restrictions to disambiguate a sentence.
As Logical Statements

p   For eat…

p   Eating(e) ^Agent(e,x)^ Theme(e,y)^Isa(y, Food)
    (adding in all the right quantifiers and lambdas)
WordNet
p   Use WordNet hyponyms (type) to encode the selection 
    restrictions 
Specificity of Restrictions
p   What can you say about THEME in each with respect to the verb?
p   Some will be high up in the WordNet hierarchy, others not so high…

p   PROBLEMS

p   Unfortunately, verbs are polysemous and language is creative…  
     n   … ate glass on an empty stomach accompanied only 
         by water 
         and tea
     n   you can’t eat gold for lunch if you’re hungry
     n   … get it to try to eat Afghanistan
Discovering the Restrictions
p   Instead of hand-coding the restrictions for each verb, 
    can we discover a verb’s restrictions by using a corpus and WordNet?


     –   Parse sentences and find heads
     –   Label the thematic roles
     –   Collect statistics on the co-occurrence of particular 
         headwords with particular thematic roles
     –   Use the WordNet hypernym structure to find the most 
         meaningful level to use as a restriction
Motivation
p   Find the lowest (most specific) common ancestor that 
    covers a significant number of the examples
Word-Sense Disambiguation
p   Word sense disambiguation refers to the process of selecting 
    the right sense for a word from among the senses that the word is 
    known to have
p   Semantic selection restrictions can be used to disambiguate
     n Ambiguous arguments to unambiguous 
       predicates
     n Ambiguous predicates with unambiguous 
       arguments
     n Ambiguity all around
Word-Sense Disambiguation
p   We can use selectional restrictions for disambiguation.
     n He cooked simple dishes.
     n He broke the dishes.
p   But sometimes, selectional restrictions will not be enough to disambiguate.
     n What kind of dishes do you recommend?             -- we cannot know what 
        sense is used.
p   There can be two lexemes (or more) with multiple senses.
     n They serve vegetarian dishes.
p   Selectional restrictions may block the finding of meaning.
     n If you want to kill Turkey, eat its banks.
     n Kafayı yedim.
     n These situations leave the system with no possible meanings, and they 
        can indicate a metaphor.
WSD and Selection Restrictions

p   Ambiguous arguments
    n Prepare a dish
    n Wash a dish
p   Ambiguous predicates
    n Serve Denver
    n Serve breakfast
p   Both
    n   Serves vegetarian dishes
WSD and Selection Restrictions

p   This approach is complementary to the compositional analysis 
    approach.
    n   You need a parse tree and some form of 
        predicate-argument  analysis derived from 
         p The tree and its attachments

         p All the word senses coming up from the 
           lexemes at the leaves    of the tree
         p Ill-formed analyses are eliminated by noting 
           any selection restriction violations
Problems

p   As we saw last time, selection restrictions are violated all 
    the time.
p   This doesn’t mean that the sentences are ill-formed or 
    preferred less than others.
p   This approach needs some way of categorizing and 
    dealing with the various ways that restrictions can be 
    violated
WSD Tags

p   What’s a tag?
    n A dictionary sense?
p   For example, for WordNet an instance of “bass” in a text 
    has 8 possible tags or labels (bass1 through bass8).
WordNet Bass
The noun ``bass'' has 8 senses in WordNet

•      bass - (the lowest part of the musical range)
•      bass, bass part - (the lowest part in polyphonic  music)
•      bass, basso - (an adult male singer with the lowest voice)
•      sea bass, bass - (flesh of lean-fleshed saltwater fish of the family 
       Serranidae)
•      freshwater bass, bass - (any of various North American lean-fleshed 
       freshwater fishes especially of the genus Micropterus)
•      bass, bass voice, basso - (the lowest adult male singing voice)
•      bass - (the member with the lowest range of a family of musical 
       instruments)
•      bass -(nontechnical name for any of numerous edible  marine and
          freshwater spiny-finned fishes)
Representations
p   Most supervised ML approaches require a very simple 
    representation for the input training data.
     n   Vectors of sets of feature/value pairs
          p I.e. files of comma-separated values
p   So our first task is to extract training data from a corpus with respect 
    to a particular instance of a target word
     n   This typically consists of a characterization of 
         the window of text surrounding the target
Representations
p   This is where ML and NLP intersect
    n If you stick to trivial surface features that are 
      easy to extract from a text, then most of the 
      work is in the ML system
    n If you decide to use features that require more 
      analysis (say parse trees) then the ML part 
      may be doing less work (relatively) if these 
      features are truly informative
Surface Representations
p   Collocational and co-occurrence information
     n   Collocational
          p Encode features about the words that appear in 
            specific positions to the right and left of the target 
            word
              § Often limited to the words themselves as 
                well as they’re part of speech

     n   Co-occurrence
          p Features characterizing the words that occur 
            anywhere in the window regardless of position
              § Typically limited to frequency counts
Collocational

p   Position-specific information about the words in the 
    window
p   guitar and bass player stand
    n [guitar, NN, and, CJC, player, NN, stand, 
      VVB]
    n In other words, a vector consisting of
    n [position n word, position n part-of-speech…]
Co-occurrence

p   Information about the words that occur within the 
    window.
p   First derive a set of terms to place in the vector.
p   Then note how often each of those terms occurs in a 
    given window.
Classifiers

p   Once we cast the WSD problem as a classification 
    problem, then all sorts of techniques are possible
    n Naïve Bayes (the right thing to try first)
    n Decision lists
    n Decision trees
    n Neural nets
    n Support vector machines
    n Nearest neighbor methods…
Classifiers

p   The choice of technique, in part, depends on the set of 
    features that have been used
     n Some techniques work better/worse with features with 
       numerical values
     n Some techniques work better/worse with features that 
       have large numbers of possible values
        p For example, the feature the word to the left has a 
          fairly large number of possible values
Statistical Word-Sense 
Disambiguation
                 Where s is a vector of senses,
                 V is the vector representation of the input



                      By Bayesian rule




                       By making independence assumption of
                       meanings. This means that the result is
                       the product of the probabilities of its
                       individual features given that its sense
Problems

p   Given these general ML approaches, how many 
    classifiers do I need to perform WSD robustly
    n One for each ambiguous word in the 
      language
p   How do you decide what set of tags/labels/senses to use 
    for a given word?
    n Depends on the application
END
Examples from Russell&Norvig (1)

 p   7.2. p.213

 p   Not all students take both History and Biology.
 p   Only one student failed History.
 p   Only one student failed both History and Biology.
 p   The best history in History was better than the best score in Biology.
 p   Every person who dislikes all vegetarians is smart.
 p   No person likes a smart vegetarian.
 p   There is a woman who likes all men who are vegetarian.
 p   There is a barber who shaves all men in town who don't shave themselves.
 p   No person likes a professor unless a professor is smart.
 p   Politicians can fool some people all of the time or all people some of the time but they 
     cannot fool all people all of the time.
Categories & Events
p   Categories:
     n VegetarianRestaurant (Joe’s) – categories are relations and not objects
     n MostPopular(Joe’s,VegetarianRestaurant) – not FOPC!
     n ISA (Joe’s,VegetarianRestaurant) – reification (turn all concepts into 
       objects)
     n AKO (VegetarianRestaurant,Restaurant)
p   Events:
     n Reservation (Hearer,Joe’s,Today,8PM,2)
     n Problems:
         p   Determining the correct number of roles
         p   Representing facts about the roles associated with an event
         p   Ensuring that all the correct inferences can be drawn
         p   Ensuring that no incorrect inferences can be drawn
MUC-4 Example

   On October 30, 1989, one civilian was killed in a
   reported FMLN attack in El Salvador.

        INCIDENT: DATE                 30 OCT 89
        INCIDENT: LOCATION             EL SALVADOR
        INCIDENT: TYPE                 ATTACK
        INCIDENT: STAGE OF EXECUTION   ACCOMPLISHED
        INCIDENT: INSTRUMENT ID
        INCIDENT: INSTRUMENT TYPE
        PERP: INCIDENT CATEGORY        TERRORIST ACT
        PERP: INDIVIDUAL ID            "TERRORIST"
        PERP: ORGANIZATION ID          "THE FMLN"
        PERP: ORG. CONFIDENCE          REPORTED: "THE FMLN"
        PHYS TGT: ID
        PHYS TGT: TYPE
        PHYS TGT: NUMBER
        PHYS TGT: FOREIGN NATION
        PHYS TGT: EFFECT OF INCIDENT
        PHYS TGT: TOTAL NUMBER
        HUM TGT: NAME
        HUM TGT: DESCRIPTION           "1 CIVILIAN"
        HUM TGT: TYPE                   CIVILIAN: "1 CIVILIAN"
        HUM TGT: NUMBER                1: "1 CIVILIAN"
        HUM TGT: FOREIGN NATION
        HUM TGT: EFFECT OF INCIDENT    DEATH: "1 CIVILIAN"
        HUM TGT: TOTAL NUMBER
Subcategorization frames
•   I ate
•   I ate a turkey sandwich
•   I ate a turkey sandwich at my desk
•   I ate at my desk
•   I ate lunch
•   I ate a turkey sandwich for lunch
•   I ate a turkey sandwich for lunch at my desk
    - no fixed “arity” (problem for FOPC)
One possible solution
•   Eating1 (Speaker)
•   Eating2 (Speaker, TurkeySandwich)
•   Eating3 (Speaker, TurkeySandwich, Desk)
•   Eating4 (Speaker, Desk)
•   Eating5 (Speaker, Lunch)
•   Eating6 (Speaker, TurkeySandwich, Lunch)
•   Eating7 (Speaker, TurkeySandwich, Lunch, Desk)
Meaning postulates are used to tie semantics of predicates:
     " w,x,y,z: Eating7(w,x,y,z) ⇒ Eating6(w,x,y)
Scalability issues again!
Another solution
- Say that everything is a special case of Eating7 with some 
   arguments unspecified: 
   ∃w,x,y Eating (Speaker,w,x,y)
- Two problems again:
-  Too many commitments (e.g., no eating except at meals: lunch, dinner, etc.)
-  No way to individuate events:
    ∃w,x Eating (Speaker,w,x,Desk)
    ∃w,y Eating (Speaker,w,Lunch,y) – cannot combine into
    ∃w Eating (Speaker,w,Lunch,Desk)
Reification
p   ∃ w: Isa(w,Eating) ∧ Eater(w,Speaker) ∧ Eaten(w,TurkeySandwich) – 
    equivalent to sentence 5.
p   Reification:
     n No need to specify fixed number of arguments for a given 
       surface predicate
     n No more roles are postulated than mentioned in the input
     n No need for meaning postulates to specify logical connections 
       among closely related examples
Representing time
•   I arrived in New York
•   I am arriving in New York
•   I will arrive in New York

p   ∃   w: Isa(w,Arriving) ∧ Arriver(w,Speaker) ∧ Destination(w,NewYork)
Representing time
p   ∃ i,e,w,t: Isa(w,Arriving) ∧ Arriver(w,Speaker) ∧
    Destination(w,NewYork) ∧ IntervalOf(w,i) ∧ EndPoint(I,e) ∧ Precedes
    (e,Now)
p   ∃ i,e,w,t: Isa(w,Arriving) ∧ Arriver(w,Speaker) ∧
    Destination(w,NewYork) ∧ IntervalOf(w,i) ∧ MemberOf(i,Now)
p   ∃ i,e,w,t: Isa(w,Arriving) ∧ Arriver(w,Speaker) ∧
    Destination(w,NewYork) ∧ IntervalOf(w,i) ∧ StartPoint(i,s) ∧
    Precedes (Now,s)
Representing time
p   We fly from San Francisco to Boston at 10.
p   Flight 1390 will be at the gate an hour now.
     n Use of tenses
p   Flight 1902 arrived late.
p   Flight 1902 had arrived late.
     n “similar” tenses
p   When Mary’s flight departed, I ate lunch
p   When Mary’s flight departed, I had eaten lunch
     n reference point
Aspect
p   Stative: I know my departure gate
p   Activity: John is flying
    no particular end point
p   Accomplishment: Sally booked her flight
    natural end point and result in a particular state
p   Achievement: She found her gate
p   Figuring out statives:
    * I am needing the cheapest fare.
    * I am wanting to go today.
    * Need the cheapest fare!
Representing beliefs
p   Want, believe, imagine, know - all introduce hypothetical worlds
p   I believe that Mary ate British food.
p   Reified example:
      n ∃ u,v: Isa(u,Believing) ∧ Isa(v,Eating) ∧ Believer (u,Speaker) ∧
        BelievedProp(u,v) ∧ Eater(v,Mary) ∧ Eaten(v,BritishFood)
      However this implies also:
      n ∃ u,v: Isa(v,Eating) ∧ Eater(v,Mary) ∧ Eaten(v,BritishFood)
p   Modal operators:
      n Believing(Speaker,Eating(Mary,BritishFood)) - not FOPC! – predicates 
        in FOPC hold between objects, not between relations.
      n Believes(Speaker, ∃ v: ISA(v,Eating) ∧ Eater(v,Mary) ∧
        Eaten(v,BritishFood))
Modal operators

p   Beliefs
p   Knowledge
p   Assertions
p   Issues: 
    If you are interested in baseball, the Red Sox are playing
    tonight.
Examples from Russell&Norvig (2)

 p   7.3. p.214

 p   One more outburst like that and you'll be in comptempt of court.
 p   Annie Hall is on TV tonight if you are interested.
 p   Either the Red Sox win or I am out ten dollars.
 p   The special this morning is ham and eggs.
 p   Maybe I will come to the party and maybe I won't.
 p   Well, I like Sandy and I don't like Sandy.

								
To top