Topic Detection

Document Sample
Topic Detection Powered By Docstoc
					           Topic Detection




20.06.01     Maschinelle Lernverfahren für IE und   1
                             TM
                                   Inhalt
• Motivation
• Begriffe
• Aufgaben
     –     Segmentierung
     –     First Story Detection
     –     Topic Detection
     –     Topic Tracking
     –     Story Link Detection
• Verbesserungen
• Zusammenfassung
• Referenzen

20.06.01                  Maschinelle Lernverfahren für IE und   2
                                          TM
                           Motivation
• immer mehr Informationen immer schneller verfügbar, Aktualität
  oft entscheidend
• Ziele:
   – automatische Klassifizierung von Dokumenten
   – neue Themen entdecken / verfolgen (Text-Mining)

• bisherige IR-Methoden reichen nicht aus:
   – Keyword-Suche vs. generische Queries
           • “was ist passiert?”
     – Abstraktions-Level: “Asienkrise”
     – zeitliche Dimension:
           • “was ist neu?”, “wie entwickelt sich ein Thema?”

20.06.01                  Maschinelle Lernverfahren für IE und   3
                                          TM
                   Anwendungen
• Journalismus
• Börsen- und Finanzmarkt-Analyse
• Konsum-Marktforschung
• Politik, Krisen-Erkennung
• private Information und
  Unterhaltung
• Suchmaschinen
• verbesserte
    Übersetzung



    20.06.01          Maschinelle Lernverfahren für IE und   4
                                      TM
                            Begriffe
• event: "A reported occurrence at a specific time and place, and
  the unavoidable consequences. Specific elections, accidents,
  crimes, natural disasters.”

• activity: "A connected set of actions that have a common focus
  or purpose - campaigns, investigations, disaster relief efforts."

• topic: "A seminal event or activity, plus all derivative (directly
  related) facts, events or activities."

• story: "A topically cohesive segment of news that includes two
  or more declarative independent clauses about a single event."


20.06.01               Maschinelle Lernverfahren für IE und            5
                                       TM
                               Beispiele
• Hurricane Mitch (Sep./Oct.’98)
   – On topic: coverage of the disaster itself; estimates of damage and reports of
     loss of life; relief efforts by aid organizations; impact of the hurricane on the
     economies of the effected countries.
• Thai Airbus Crash (11.12.98)
   – On topic: stories reporting details of the crash, injuries and deaths; reports on
     the investigation following the crash; policy changes due to the crash (new
     runway lights were installed at airports).
• Euro Introduced (1.1.1999)
   – On topic: stories about the preparation for the common currency
     (negotiations about exchange rates and financial standards to be shared
     among the member nations); official introduction of the Euro; economic details
     of the shared currency; reactions within the EU and around the world.

    20.06.01                Maschinelle Lernverfahren für IE und                 6
                                            TM
                 TDT2000 - Corpus
• TDT3:
     –     45k Stories, Okt.-Dez. 1998
     –     Englisch (CNN, ABC, NBC,...), Mandarin (VOA, XIN, ZBN)
     –     News-Stories aus Radio / TV / Agenturen
     –     Texte und Audio / ASR-Daten, chronologisch geordnet
     –     60 markierte Topics
     –     Trainings-Corpus pro Topic: “yes”, “no”, “brief”(<10%
           relevant)


• TDT2000:
     – 60 weitere Topics

20.06.01                Maschinelle Lernverfahren für IE und        7
                                        TM
           TDT2000 - Aufgaben




20.06.01       Maschinelle Lernverfahren für IE und   8
                               TM
                        Segmentation
                                 HMM (Mitre) [1]

• baue HMM aus Trainings-Stories:
           – 250 Knoten: entsprechen ersten 250 Worten einer Story
           – pro Knoten: Wahrscheinlichkeits-Verteilung über Feature-Value-
             Kombinationen, z.B. P(F1=v2)=0.5

                                        250 states
                                                           ...

• Segmentation:
           – lese Wort w und bestimme Werte aller Features
           – bestimme wahrscheinlichsten Übergang zu nächstem Knoten
           – falls danach in Knoten 1: “boundary”


20.06.01                   Maschinelle Lernverfahren für IE und               9
                                           TM
                        Segmentation
                                  HMM (Mitre) [1]

Features: X-duration, Coherence, Trigger
• X-duration:
    – Dauer der “non-speech”-Phase (ASR-Skript: “X”) vor w
    – 0, falls nicht existent
                                                                   sw: # Stories mit w
• Coherence-1, 2, 3, 4:                                            s: # Stories insgesamt
    –      (erstes...) Fenster von 50 Worten vor w s
                                              log
                                                     w
    –      0, falls w nicht vorkommt, sonst
                                                    s
    –      allgemein: Worte wiederholen sich vermutlich innerhalb einer Story
    –      z.B. P(coh-2=0): max. für w1-50, weil Fenster ganz in vorheriger Story,
           kleiner für w50-100, am kleinsten ab w100




20.06.01                    Maschinelle Lernverfahren für IE und                    10
                                            TM
                     Segmentation
                              HMM (Mitres) [1]

• Trigger:
     – Region R: erstes, zweites, letztes, vorletztes Wort
              # Vorkommen von w insgesamt                            nwR  1
                                                       P( w  R) 
        nw # Vorkommen von w in R                                  nw  (1 / f R )
       nwR Anteil Tokens von w, die in R vorkommen
           fR
     – Feature-Wert für w und R groß, wenn:
           • w oft in R vorkommt (Trainings-Corpus)
           • viele Tokens von w in R vorkommen
           • w insgesamt selten ist


     – z.B. P(“hi”=“erstes Wort”) relativ groß



20.06.01                   Maschinelle Lernverfahren für IE und            11
                                           TM
     Segmentation - Ergebnisse




20.06.01    Maschinelle Lernverfahren für IE und   12
                            TM
               First Story Detection
• bestimme Ähnlickeit der aktuellen Story mit “Vergangenheit”
• Story ist NEW, falls Ähnlichkeit “gering”, sonst OLD

Vektorraum-Modell:
     – repräsentiere Stories als Query-Vektoren
     – Stemming, Stopwort-Elimination, Termgewichtung


Varianten:
     –     Termgewichte (“raw” tf, tf*idf, ...)
     –     Ähnlickeits-Maße (Cosinus, gewichtete Summe, ...)
     –     Grenzwerte für NEW/OLD
     –     Menge der Vergleichs-Stories (Zeit-Ausschnitt)

20.06.01                   Maschinelle Lernverfahren für IE und   13
                                           TM
                First Story Detection
                          Single-Pass Clustering (Umass) [2]

• für aktuelle Story S mit Term-Vektor d:
    –   bilde Query q aus N gewichteten Features von S
    –   bestimme Basis-Schwellwert x = sim(q,S)
    –   vergleiche Queries bisheriger Stories mit S
    –   falls dabei x + “Zeitstrafe” überschritten wird OLD(S), sonst NEW(S)
    –   optional, OLD: “Cluster”-Bildung (assoziiere S mit “Trigger-Query”)


               
                   N
                          w(qi )  belief (qi , d )
  sim(q, d )      i 1

                            
                                N
                               i 1
                                      w(qi )
                                                       belief (qi , d )  0.4  0.6  tfi  idfi


  20.06.01                       Maschinelle Lernverfahren für IE und                         14
                                                 TM
             FSD - Ergebnisse
Umass [2], CMU [3]: Single-Pass Clustering
Dragon [5]: Language Model




20.06.01            Maschinelle Lernverfahren für IE und   15
                                    TM
                   Topic Detection
• repräsentiere Topics als Cluster bereits betrachteter Stories

• Single-Pass Clustering: (IBM [10], CMU [3], Dragon [5])
     für aktuelle Story S...
     – bestimme ähnlichsten Cluster C
     – falls Ähnlichkeit “groß” ist addiere S zu C, sonst bilde neuen Cluster
        (FSD: markiere S als NEW)


• kNN, Nearest Neighbour: (Umass [4])
     – vergleiche S direkt mit bisherigen Stories (Zeitfenster)
     – betrachte k ähnlichste Stories und deren Topics
     – Topic (Cluster) von S durch “einfache Mehrheit”

20.06.01                 Maschinelle Lernverfahren für IE und              16
                                         TM
                  Topic Detection
                   Single-Pass Clustering (CMU) [9]

• clustering (Tc) und novelty threshold (Tn), Tn<=Tc, context W
• aktuelle Story x:                         i     
                       score( x)  1  max{ sim( x , ci )}
                                                  w
                                                  ciW

                            simmax( x)  1  score( x)
     simmax( x)  Tc         OLD(x), x in ähnlichsten Cluster aus W
     Tc  simmax( x)  Tn    OLD(x), neuer Cluster
     Tn  simmax( x)         NEW(x), neuer Cluster


• FSD: Tc=unendlich (kein Clustering)
• TD: Tc=Tn (Tn nicht berücksichtigen)


20.06.01                Maschinelle Lernverfahren für IE und          17
                                        TM
                    Topic Detection
           Single-Pass Clustering, Language Model - Dragon [5]

bestimme Wort-Verteilung für jeden Cluster C (Wahrscheinlichkeit,
  daß ein Wort w in C vorkommt)
• für aktuelle Story S ähnlichsten Cluster:
                              N
              sim( S , C )   log pc ( wi )  log pb ( wi )  t
                              i 1

• N=Länge von S, pc(w)=Prob(w) in Cluster, pb(w)=Prob(w) in
  Background-Modell, t=“Zeitstrafe”
• sim groß, wenn:
     – Terme in S kommen oft in C und selten in Background vor
     – Stories in C sind “neu”


20.06.01                   Maschinelle Lernverfahren für IE und      18
                                           TM
  Topic Detection - Ergebnisse
    CMU [3], Dragon [5]: Single-Pass Clustering, Umass [4]: kNN




20.06.01             Maschinelle Lernverfahren für IE und         19
                                     TM
                      Topic Tracking
• gegeben Trainings-Corpus für Topic T, Frage S “on topic”?

• kNN: (CMU [6])
   – bestimme kNN von aktueller Story S aus Trainings-Corpus
   – falls davon mehr mit “yes”, als mit “no” markiert sind YES, sonst NO


• Decision Trees: (CMU [6])
   –   baue je einen Decision Tree pro Topic T
   –   repräsentiere Trainings-Stories für T (markiert mit "yes", "no") als Queries
   –   Knoten-Labels sind Aussagen über Term-Gewichte qi
   –   maximiere Informationsgewinn, "Reinheit" der Unterbäume
   –   Ziel: pro Blatt nur "yes"/"no"-Queries
   –   Kosten: ca. 2 Min für 25 Topics / DTs mit je 15.000 Trainings-Stories

  20.06.01                 Maschinelle Lernverfahren für IE und               20
                                           TM
                   Topic Tracking
                      kNN-Algorithmus (CMU) [6]

• Parameter: k>0 und 0<k1<k, 0<k2<k
• für aktuelle Story S bestimme...
• K(k’,m) := Menge der k’ zu S ähnlichsten Stories aus Trainings-
  Corpus mit Markierung m
• P(S,k1) := K(k1,m), m=“yes”/“brief”
• N(S,k2) := K(k2,m), m=“no”
• Wahrscheinlichkeit, daß S bzgl. des geg. Topics relevant ist:

                 1                         1                    
    P( yes | s )  dP ( s ,k1) cos(d , s )  dN ( s ,k 2) cos(d , s )
                  k1                          k2
• Gesamtzahl pos. Trainings-Beispiele pro Event (<=16), z.B. k=5

20.06.01               Maschinelle Lernverfahren für IE und            21
                                       TM
     English Story                                            Topic Tracking
                                       Bilingual                          UMD [7]
  President Bill Clinton and…
                                        Term
                                          List
                                              (weighted) top-N translations
Mandarin
                     Term                Term               Query
Training
                    Selection         Translation         Construction
 Stories
                    n-word units
                                                                               Ranked
                                                                              List of TS
                                   IDF
                                                           IR-System
                                Computation
                                                                                   Score
  Mandarin Audio                                                                Normalization
                                    Speech                 Document
                                   Recognition            Construction
                                                                                     Score

                                                               Story
    20.06.01                                                 Boundaries                    22
    Topic Tracking - Ergebnisse
                      (CMU) [6]




20.06.01    Maschinelle Lernverfahren für IE und   23
                            TM
                   Story Link Detection
                                tf*idf, LCA (Umass) [4]

• Cosinus-Ähnlichkeit mit Gewichten tf*idf, threshold 0.8
• Problem:
    – meist relativ kurze Stories, kleine gemeinsame Term-Menge, Synonyme


• Local Context Analysis (LCA) “smoothing”:
    –   nehme Top-n Terme aus Story-Vektor für Query
    –   Query Q gegen Rest-Corpus (zeitlich davor)
    –   extrahiere alle Terme aus Menge ähnlicher Stories
    –   gewichte jeden Term t basierend auf...
             • Gewicht von t in Q
             • räumlicher Distanz von t zu anderen Termen aus Q und
             • deren Gewicht in Q
    – bilde neuen Dokument-Vektor aus Q und Top-n der LCA-Expansion
  20.06.01                     Maschinelle Lernverfahren für IE und   24
                                               TM
           Story Link Detection




20.06.01       Maschinelle Lernverfahren für IE und   25
                               TM
                 Verbesserungen
bereits getestet:
• verschiedene Termgewichte, Ähnlichkeitsmaße (Vektorraum)
• Verwendung von Named Entities

weitere Möglichkeiten:
• Ausnutzung von...
      – Text-Struktur (z.B. erster / letzter Satz)
      – Einfluß von Topic auf Art der Terme: wo vs. wer (NE’s), Verben
• NLP: “Schlüsselsätze” finden
• prob. Vorhersagen auf Basis von zeitlicher Topic-Entwicklung
      – Verbrechen -> Untersuchung -> Prozess


20.06.01                Maschinelle Lernverfahren für IE und             26
                                        TM
                     Named Entities
                           Tracking (Univ.Iowa) [8]

• zusätzlich zu Term-Vektor: NE-Vektoren
      – Personen, Organisationen, Orte, Events, MeSH (Medical Subject
        Headings)
• gewichtet nach Vektor-Länge und Häufigkeit der vork. Terme
• separate NER in Mandarin vor Übersetzung

• vergleiche S mit Trainings-Stories:
      – für jedes Paar von NE-Vektoren bestimme Cos-Ähnlichkeit
      – bilde gewichtete Summe:
           sim(s1,s2) = 0.3*sim(per) + 0.3*sim(org) + 0.2*sim(loc) + 0.1*sim(event) +
             0.1*sim(mesh)



20.06.01                   Maschinelle Lernverfahren für IE und                   27
                                           TM
           Named Entities
                   FSD / Tracking


•




20.06.01     Maschinelle Lernverfahren für IE und   28
                             TM
     Named Entities - Probleme
• Abhängigkeit von Qualität der NER
• nicht robust gegenüber Qualität der ASR (>20% Fehler):
    – Groß- und Kleinschreibung
    – unterschiedliche Schreibweisen
• Anzahl der vorkommenden NE’s in gesuchten Stories
• Zuordnung von NE’s zu Topics
    –      NE’s in mehreren Topics (z.B. Politiker)
    –      gleiche Namen für verschiedene NE’s
    –      manche Topics nicht durch spezifische NE’s charakterisiert
    –      NE’s nicht Topic-relevant (z.B. Reporter)




20.06.01                    Maschinelle Lernverfahren für IE und        29
                                            TM
              Zusammenfassung
• Topic-Definition ergeignisbasiert

• Hauptaufgaben:
     – Topic Detection
     – First Story Detection
     – Tracking
• Voraussetzungen: ASR, Übersetzung, Segmentierung, SLD

• viel Raum für Verbesserungen und Forschung
     – reines Vektorraum-Modell in Effizienz begrenzt
     – Kombination mit NER / NLP?




20.06.01                Maschinelle Lernverfahren für IE und   30
                                        TM
                           Referenzen
•     [1] Mitre TDT2000 Segmentation System, Greiff, Morgan, Fish, (Mitre
      Corporation, 2000)
•     [2] Online New Event Detection using Single-Pass Clustering, Papka,
      Allan (University of Massachusetts, 1997)
•     [3] A study on Retrospective and On-Line Event Detection, Yang, Pierce,
      Carbonell (Carnegie Mellon University, 1998)
•     [4] Umass at TDT2000, Allan, Lavrenko, Frey, Khandelwal (Umass, 2000)
•     [5] Statistical Models for Tracking and Detection, (Dragon Systems, 1999)
•     [6] Learning Approaches for Detecting and Tracking News Events, Yang,
      Carbonell, Brown (CMU, 1999)
•     [7] Translingual Topic Tracking: Applying Lessons from the MEI Project,
      Levow, Oard, (University of Maryland, 2000)


    20.06.01                Maschinelle Lernverfahren für IE und            31
                                            TM
                        Referenzen
•   [8] Entity Based Tracking, Eichmann (University Iowa, 2000)
•   [9] A study on Retrospective and On-Line Event Detection, Yang, Pierce,
    Carbonell (CMU, 1998)
•   [10] Story Segmentation and Topic Detection in the Broadcast News
    Domain, Dharanipragada, Franz, Carley (IBM, 1998)




20.06.01                 Maschinelle Lernverfahren für IE und           32
                                         TM
                               Beispiele
• Pinochet Trial (16.10.98)
   – On topic: stories covering any angle of the legal process surrounding this trial
     (including Pinochet's initial arrest in October, his appeals, British Court rulings,
     reactions of world leaders and Chilean citizens to the trial, etc.).




    20.06.01                 Maschinelle Lernverfahren für IE und                33
                                             TM
                    Segmentation
                       Decision Trees (IBM) [1]
• System:
     – sprachl. Vorverarbeitung (Satzerkennung, Stemmer) -> Feature
       Extraction -> DT -> Refinement (Vergleich adjazenter Segmente)


• Eingabe für Decision Tree:
     – je eine NSP im ASR-Skript, endlich viele Sätze davor und danach
• Features, erlernte Indikatoren für Segment-Grenzen:
     – Dauer der NSP
     – Vorkommen von Worten/Paaren (Distanz von Story-Grenzen)
     – Menge der Nomen im Vor- und Nachfeld


• Refinement: Vergleich adjazenter Segmente (false alarms)


20.06.01               Maschinelle Lernverfahren für IE und              34
                                       TM
                    Termgewichte
• df(i) = Anzahl (bisheriger) Dokumente mit Term ti
• idf(i) = N / df(i), N = Anzahl aller (bisherigen) Dokumente
• tf(ij) = Anzahl Vorkommen von ti in Dokument dj
                    tf ij         N
• tf*idf:   wij              log
                  max k tf kj     dfi

                                                       Np
• adaptive idf, Zeitpunkt p:           idfip  log 2 (      )
                                                       df p



20.06.01                Maschinelle Lernverfahren für IE und    35
                                        TM
          Dokument-Ähnlichkeit
•   Cosinus-Ähnlichkeit:
                          q d              i       i


                         q d
                                        2                   2
                                    i                   i




• gewichtete Summe:          q d       i       i

                             q             i




20.06.01          Maschinelle Lernverfahren für IE und          36
                                  TM
                First Story Detection
                          Single-Pass Clustering (Umass) [2]


• für aktuelle Story S mit Term-Vektor d:
    –   bilde Query q aus N gewichteten Features von S
    –   bestimme Basis-Schwellwert x = sim(q,S)
    –   vergleiche Queries bisheriger Stories mit S
    –   falls dabei x + “Zeitstrafe” überschritten wird OLD(S), sonst NEW(S)
    –   optional, OLD: “Cluster”-Bildung (assoziiere S mit “Trigger-Query”)

             
                 N
                       w(qi )  belief (qi , d )
sim(q, d )     i 1                                belief (qi , d )  0.4  0.6  tfi  idfi
                          i1 w(qi )
                             N
                                                                             c  0.5
                                                   d                    log(           )
                       tfi  t /(t  0.5  1.5                                 dfi
                                                          )      idfi 
                                                 avg( d )                 log( c  1)
• t = Häufigkeit von qi in d
  20.06.01                        Maschinelle Lernverfahren für IE und                     37
                                                  TM
           FSD - Ergebnisse




20.06.01      Maschinelle Lernverfahren für IE und   38
                              TM
                   Topic Tracking
• Single-Pass Clustering:
     – nur zwei Cluster: Yes und No (initialisiert mit entsprechenden
       Dokumenten aus T)
     – bestimme Ähnlichkeit von S mit Yes und No
     – füge S zu ähnlichstem Cluster hinzu




20.06.01                Maschinelle Lernverfahren für IE und            39
                                        TM

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:6
posted:12/11/2011
language:
pages:39