Docstoc

Cours1-fouilledetexte

Document Sample
Cours1-fouilledetexte Powered By Docstoc
					Cours ECT 1




                                      `
          Extraction de connaissances a partir de textes
                                                    `
                                       Introduction a la fouille de textes
                                         ´
                                       Revision du cours de M. Jardino.


                                              Alexandre Allauzen

                                                    ´
                                           Universite Paris 11 / LIMSI-CNRS


                                                  ´
                                               7 decembre 2007




     Alexandre Allauzen (LIMSI-CNRS)                  Cours ECT 1             Introduction   1 / 64
Cours ECT 1




Outline
1     Organisation du module
         Organisation
         Les TDs
2                  `
      Introduction a la fouille de textes
                           `
         Position du probleme
                                           ´
         Applications de la fouille de donnees textuelles
                                    `
         Fouille de textes : synthese
3     Quels textes ?
         Typologie des textes
            ´
         Pre-traitement : nettoyage, normalisation
         Quels niveaux ?
4          ´
      Representation et manipulation des textes, distances
         Sac de mots
               ´
         Representation enrichie et sac de termes
               ´
         Representation vectorielle
                    ´
         Quelles methodes pour fouiller ?
     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1           Introduction   2 / 64
Cours ECT 1
    Organisation du module




Plan
1      Organisation du module
          Organisation
          Les TDs
2                   `
       Introduction a la fouille de textes
                            `
          Position du probleme
                                            ´
          Applications de la fouille de donnees textuelles
                                     `
          Fouille de textes : synthese
3      Quels textes ?
          Typologie des textes
             ´
          Pre-traitement : nettoyage, normalisation
          Quels niveaux ?
4           ´
       Representation et manipulation des textes, distances
          Sac de mots
                ´
          Representation enrichie et sac de termes
                ´
          Representation vectorielle
                     ´
          Quelles methodes pour fouiller ?
      Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1           Introduction   3 / 64
Cours ECT 1
   Organisation du module
      Organisation



Organisation

  ´
Pre-requis
                ı ´
Programmation maˆtrisee :
        un langage (java, perl, ... );
                               ´
        les structures de donnees (Contener, Hash table);
        les algorithmes.

Cours
        Site Web (ressources et information) :
        http://www.limsi.fr/Individu/allauzen/cours/html/ect.html

                                               ´       ´
        Les enseignants : Alexandre Allauzen, Jerome Aze.
        8 cours.
        Un examen.

     Alexandre Allauzen (LIMSI-CNRS)    Cours ECT 1                 Introduction   4 / 64
Cours ECT 1
   Organisation du module
      Les TDs



Objectifs des TDs
Les TDs
TDs sur machine (en Java, Perl, ... au choix) :
                            ´                                   ´
    Mise en application, experimentation du cours, analyse des resultats.
                                             `          ´
        Constitution progressive d’une boite a outils, reutilisation.
             ˆ
        Controle continu lors des TD.

 ´             ´
Realisation et evaluation d’une application
        Opinion Mining : critique de film.
                      ı              ´
        Corpus d’entraˆnement utilise : DEFT

     ˆ
Controle continu
        ´                      `
        Evaluation de la boite a outils,
        ´                 `
        Evaluation du systeme.

     Alexandre Allauzen (LIMSI-CNRS)       Cours ECT 1                  Introduction   5 / 64
Cours ECT 1
                 `
    Introduction a la fouille de textes




Plan
1      Organisation du module
          Organisation
          Les TDs
2                   `
       Introduction a la fouille de textes
                            `
          Position du probleme
                                            ´
          Applications de la fouille de donnees textuelles
                                     `
          Fouille de textes : synthese
3      Quels textes ?
          Typologie des textes
             ´
          Pre-traitement : nettoyage, normalisation
          Quels niveaux ?
4           ´
       Representation et manipulation des textes, distances
          Sac de mots
                ´
          Representation enrichie et sac de termes
                ´
          Representation vectorielle
                     ´
          Quelles methodes pour fouiller ?
      Alexandre Allauzen (LIMSI-CNRS)     Cours ECT 1         Introduction   6 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                       `
      Position du probleme



  ´               ´
L’etendue des donnees
´
Etat des lieux
How Much Information in 2003
(http://www.sims.berkeley.edu/research/projects/how-much-info/)

                                         ´
         Entre 3 et 5 exabytes de donnees originales produites en 2003,
                                                    ´
         du texte, de l’audio, de l’image, de la video, ...
                          ´          18
         1 exabytes represente 10 octets soit un milliard de MegaOctets.
                                                 `            `    ´
         Les 17 millions de livres de la bibliotheque du Congres americain
             ´
         representeraient 136 terabytes (rapport 37 000).

   `
Acces et exploitation
              ` `                 `         ´                `
         L’acces a l’information, a des donnees pertinentes, a la connaissance
                       ´
         devient un veritable enjeu.
                                       ´
         Rendre les masses de donnees utilisables.
     Alexandre Allauzen (LIMSI-CNRS)     Cours ECT 1                    Introduction   7 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                       `
      Position du probleme



               ´
Fouille de donnees vs Recherche dans les bases de
      ´
donnees

    ´                      ´
Donnees non ou peu structurees
                                 ´              ´               ´
Par opposition aux bases de donnees ou les donnees sont structurees et
                                     `
     ´
stockees dans des tables avec des champs particuliers

Recherche de connaissances implicites
                           ´           ´
A priori, pas de travail prealable de reflexion, de structuration, et de
    ´
representation des connaissances, bref d’indexation.

En anglais
(Text) Data Mining vs Information retrieval


     Alexandre Allauzen (LIMSI-CNRS)     Cours ECT 1                      Introduction   8 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                       `
      Position du probleme



Fouille de textes

     ´
Une definition
     ´                                    ´
Acquerir des connaissances (ou des donnees) enfouies (fouillons) dans des
corpus de textes.
                                                      ´
    Extraire des informations dans la mine des textes electroniques
    disponibles en abondance aujourd’hui.
                                                      ˆ
    Corpus = recueil de documents concernant une meme discipline (Petit
    Robert)
                             ´
    Corpus = ensemble ”coherent” de textes, d’objets.
                             ´
         Un corpus de texte geant : le Web.

The web as corpus
    ´
Conference Corpus Linguistics 2005, EACL 2006 :
http://sslmit.unibo.it/ baroni/web as corpus cl05.html

     Alexandre Allauzen (LIMSI-CNRS)     Cours ECT 1             Introduction   9 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                                        ´
      Applications de la fouille de donnees textuelles



Audience et Q&A

Mesure des audiences Web
                            ´
Enregistrer les sites visites par un panel d’internautes et mettre en relation les
parcours des internautes avec leur description sociologique;
    Corpus de pages Web visites ;  ´
                               `                              ´
    Objectif : cibler la clientele, chercher des traits caracteristiques.

          ´
Question/Reponse
  ´        `                   ´     `                 ´
Repondre a une question precise a partir de textes electroniques ou du Web.
                         ´
    Corpus de textes electroniques ou le Web !
           ´
    Competitions internationales sur l’extraction d’informations :
    Text Retrieval Conference.
                          ´              `                      ´
Suivant les textes utilises, application a la “bonne pratique” medicale,
recherche de film, who’s who ?

     Alexandre Allauzen (LIMSI-CNRS)                     Cours ECT 1   Introduction   10 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                                        ´
      Applications de la fouille de donnees textuelles



                        ´
Traitement de l’actualite via les sites web
                            ´                       ´            ´
Suivre une certaine actualite via des sites Web cibles d’actualite.
´
Etude des Co-occurrences
         People/Companies : qui est en relation avec qui ?
         Word/Companies : “l’image” d’une entreprise.

Extraction d’information
                         ´             ´ ˆ
         Classification thematique des depeches ou article,
           ´         ´ `                     ´
         Detection d’evenement et de nouveaute.
                                                                      ˆ
         Extraction de fait : acquisition d’entreprise, prise de controle, accession
         au pouvoir, ...

                                                                  Situation temporelle de l’information.


     Alexandre Allauzen (LIMSI-CNRS)                     Cours ECT 1                        Introduction   11 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                                        ´
      Applications de la fouille de donnees textuelles



emails, blogs, forums, ...


Opinion Mining
                                               ´
Extraction de patrons syntaxiques, et filtrage semantique
         < subj > passive-verb → < Foo > was satisfied
         < subj > active-verb → < Foo > complained
         ...

Classification d’emails
                                                ˆ
         Service client : classification des requetes, des clients.
         Spam detection.
                                  ´
         Classification personnalisee : professionnel, perso, annonce, ...



     Alexandre Allauzen (LIMSI-CNRS)                     Cours ECT 1    Introduction   12 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                                        ´
      Applications de la fouille de donnees textuelles



      `
Au dela du texte
                              ´
Le texte peut permettre d’apprehender d’autres media.

TRECVID : sur la Video
               ´                   `
Fouille de donnees audiovisuelles, a partir de connaissances extraites
automatiquement du flux audio et video´
         Analyse d’images
                                              ´              ´
         Reconnaissance de formes : images exterieures vs interieures, visages,
         ... .
                       ´
         Textes incrustes
         Transcription automatique de la parole

                 ´
Document structure
  ´                                  ´
Creation d’un document texte ”multi-media” (xml par exemple) par la fusion
des analyses automatique.

     Alexandre Allauzen (LIMSI-CNRS)                     Cours ECT 1   Introduction   13 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                                        ´
      Applications de la fouille de donnees textuelles



               ´
Fouille de donnees audiovisuelles par le ”texte”
Exploration de fonds inconnus :
                         ´ ´                          `
         Certains fonds televisuels et radiophoniques a l’INA sont inconnus.
                                         ´
         Que contient un corpus retrouve de plusieurs centaines d’heures ?

`
A partir de la transcription automatique,
                                                      ´
         Comment transcrire efficacement des donnees audiovisuelles ?
                                                       ´
         Trouver des textes similaires pour adapter : epoque, style, contenu.
              ´                                   `                        `
         Complement d’information, enrichissement a l’aide de textes paralleles.

Structurer automatiquement le corpus
                                           ´ ´   `             ´
Extraction et structuration d’information heterogenes : mots-cles,termes, qui
                   `
parle et quand, themes, style de documents, ...

                                                         Stages : www.limsi.fr/Individu/allauzen/
     Alexandre Allauzen (LIMSI-CNRS)                            Cours ECT 1             Introduction   14 / 64
Cours ECT 1
                `
   Introduction a la fouille de textes
                               `
      Fouille de textes : synthese



Processus de fouille de textes




     Alexandre Allauzen (LIMSI-CNRS)     Cours ECT 1   Introduction   15 / 64
Cours ECT 1
    Quels textes ?




Plan
1      Organisation du module
          Organisation
          Les TDs
2                   `
       Introduction a la fouille de textes
                            `
          Position du probleme
                                            ´
          Applications de la fouille de donnees textuelles
                                     `
          Fouille de textes : synthese
3      Quels textes ?
          Typologie des textes
             ´
          Pre-traitement : nettoyage, normalisation
          Quels niveaux ?
4           ´
       Representation et manipulation des textes, distances
          Sac de mots
                ´
          Representation enrichie et sac de termes
                ´
          Representation vectorielle
                     ´
          Quelles methodes pour fouiller ?
      Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1           Introduction   16 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



Qu’est-ce qu’un texte
 ´
Definir la pertinence


Le fond et la forme
              ˆ     ´           `
Un texte peut etre defini de maniere multiple :
        Un livre est une suite de chapitres qui sont une suite de paragraphes, ...
        phrases, mots.
                                                    `
        Le titre du livre a une importance particuliere, et dans une page Web ?

Types de textes
                              ´
        Documents structures ou non
                                                     ´
        Texte ”brut” : Extrait du journal Le Monde, decembre 1996
        Transcriptions d’oral
        Pages WEB (HTML), images, textes et bruits
                       ´
        Textes structures (XML)

     Alexandre Allauzen (LIMSI-CNRS)    Cours ECT 1                     Introduction   17 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



Ce que nous voyons




     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1   Introduction   18 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



Vu par la machine - 1
index.php

<!--jpcache 90-->
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR
<html>
<head>
<meta http-equiv="expires" content="Fri, 01 Dec 2006 16:58:41 +0100">
                                                           e
<meta name="Keywords" content="Radio France, Programmes, Fr´quences, Reportages
        Culturelle, internationales, France Info, France Inter, France Bleu, France C
        .......... politique">
                                                                                e
        <meta name="Description" content="Radio France, les programmes et les fr´quen
<title>Radio France > Accueil</title>
<!--Fin code popup / cookie -->

<LINK REL="STYLESHEET" TYPE="text/css" HREF="http://image.radio-france.fr/home/style/
<script language="JavaScript"><!--
if (document.images) {
it_sta_over = new Image();
it_sta_over.src = "http://image.radio-france.fr/home/img_menu/it_radios_over.gif";
it_sta = new Image();
it_sta.src = "http://image.radio-france.fr/home/img_menu/it_radios.gif";
it_them_over = new Image();
        .......
it_serv = new Image();
it_serv.src = "http://image.radio-france.fr/home/img_menu/it_serv.gif";
}
     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1                    Introduction   19 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



Vu par la machine - 2
index.php



<TR><TD VALIGN="top"><IMG SRC="http://image.radio-france.fr/home/pictos/20000005-pict



                                                             e
<A HREF="/reportage/laune/?rid=305000082" CLASS="linfo">Journ´e justice morte</A>
                                                                e
<A HREF="/reportage/laune/?rid=305000082" CLASS="ltxt">Un an apr`s les acquittements
                          ¸      e                    e                 e
d’Outreau, la justice francaise d´braye. Pour la premi`re fois depuis pr`s de trois a
magistrats organisent des mouvements de protestation concomitants qui traduisent l’am
du monde judiciaire</A><br clear=all><IMG SRC="http://image.radio-france.fr/img/vide.
WIDTH="5"><br>........
                                          e e
<SPAN CLASS="info"><b>Autres titres</b> (d´pˆches france info)</SPAN><br><IMG
SRC="http://image.radio-france.fr/img/vide.gif" WIDTH="2"><br><LI TYPE="square">
<A HREF="/chaines/france-info/depeches/detail.php?depeche_id=061201075117.an9bbzap" C
        e
Une coul´e de boue fait 500 morts ou disparus aux Philippines</A><LI TYPE="square">
<A HREF="/chaines/france-info/depeches/detail.php?depeche_id=061201144810.oo1dh1g4" C
Retour de Benoˆt XVI ` Rome apr`s son voyage en Turquie</A><LI TYPE="square">
              ı      a         e
<A HREF="/chaines/france-info/depeches/detail.php?depeche_id=061201105422.2i8i03qp" C
Liban: d´monstration de force de l’opposition ` Beyrouth en alerte maximale</A> </DIV
        e                                     a




     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1                    Introduction   20 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



Article du Monde : texte “brut”
                             { \rtf1\ansi \deff0\plain Document soumis aux dispositions du droit
                               Tous droits r\’E9serv\’E9s.
                               \par ------------
                               \par \b\fs34 Le Monde\b0\fs24
                               \par
                               \par
                               \par 31 d\’E9cembre 1996, page 1\par
                               \par
                               \par
                               \par HORIZONS - ANALYSES ET DEBATS\par \b\fs34 L’Allemagne se se
                               plut\’F4t bien\b0\fs24
                               \par
                               \par \b DELATTRE LUCAS\b0
                               \par
                               \par C’\’C9TAIT, il y a peu, \’E0 Bonn. Vendredi, 15 h 30. Helmut
                               Kohl, seul, quitte son bureau et traverse tranquillement le parc d
                               chancellerie. Sa semaine de travail est termin\’E9e. Le chancelier
                               allemand se rend dans sa villa priv\’E9e, au fond du jardin, ce qu
                               l’on appelle ici le "bungalow". L\’E0, quelques lectures d’agr\’E9
                               l’attendent un roman historique ou une biographie, sans doute.
                               \par
                               \par Surprenante image.
                             }


     Alexandre Allauzen (LIMSI-CNRS)             Cours ECT 1                      Introduction   21 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



Une forme de transcription automatique de documents
audiovisuels
  20020103          tf1   jt20h 1 8.570    0.180 madame            0.8872
  20020103          tf1   jt20h 1 8.750    0.230 monsieur          0.7797
  20020103          tf1   jt20h 1 8.980    0.580 bonsoir           0.9886
  20020103          tf1   jt20h 1 9.560    0.090 dans              0.9893
  20020103          tf1   jt20h 1 9.650    0.050 l’                0.9894
  20020103          tf1   jt20h 1 9.700                  ´
                                           0.510 actualite         0.9893
  20020103          tf1   jt20h 1 10.210   0.120 de                0.9893
  20020103          tf1   jt20h 1 10.330   0.170 ce                0.9893
  20020103          tf1   jt20h 1 10.500   0.230 jeudi             0.9866
  20020103          tf1   jt20h 1 10.790   0.100 le                0.9883
  20020103          tf1   jt20h 1 10.890   0.270 drame             0.9892
  20020103          tf1   jt20h 1 11.160   0.120 de                0.9894
  20020103          tf1   jt20h 1 11.280   0.160 s’                0.9835
  20020103          tf1   jt20h 1 11.440   0.280 abonner           0.9833
  20020103          tf1   jt20h 1 11.790   0.130 de                0.9628
  20020103          tf1   jt20h 1 11.920   0.320 mur               0.6697
  20020103          tf1   jt20h 1 12.240            `
                                           0.160 pres              0.9830
  20020103          tf1   jt20h 1 12.400   0.120 de                0.9877
  20020103          tf1   jt20h 1 12.520   0.270 Lyon              0.9871
  20020103          tf1   jt20h 1 13.270   0.230 neuf              0.9739
  20020103          tf1   jt20h 1 13.500   0.520 pensionnaires     0.6064


     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1       Introduction   22 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



       ´
Textes electroniques


CHAPITRE II

             e                                        e
J’ai ainsi v´cu seul, sans personne avec qui parler v´ritablement,
       a                     e
jusqu’` une panne dans le d´sert du Sahara, il y a six ans. Quelque
         e         e
chose s’´tait cass´ dans mon moteur, Et comme je n’avais avec moi ni
m´chanicien, ni passagers, je me pr´parai ` essayer de r´ussir, tout
 e                                  e      a            e
           e                      e
seul, une r´paration difficile. C’´tait pour moi une question de vie
ou de mort. J’avais ` peine de l’eau ` boire pour huit jours. Le
                     a                a
premier soir je me suis donc endormi sur le sable ` mille milles de
                                                  a
                 e       e                   e            e
toute terre habit´e. J’´tais bien plus isol´ qu’un naufrag´ sur un
                           e
rideau au milieu de l’oc´an. Alors vous imaginez ma surprise, au lev´e
                       o                       e    e
du jour, quand une drˆle de petite voix m’a r´veill´. Elle disait:
               ı
-S’il vous plaˆt... dessine-moi un mouton!
-Hein!
-Dessine-moi un mouton...




     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1                       Introduction   23 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



               ´
Textes structures
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE catdesc PUBLIC "Eurodelphes Consortium//DTD Catalogue Description
 Exchange Format V 1.0//EN" "catdesc.dtd" [<!--INA, Inc., 1998-1999, v.1-->
<document>
<docId>urn:x-eurodelphes:AV/I000177H</docId>
<title>
  <multilingual>
                    e
    <FR>La crise am´ricano-cubaine</FR>
    <IT>La crisi americano-cubana </IT>
  </multilingual>
</title>
<transcript>
  <phrase>
    <time>7000</time>
    <duration>8360</duration>
    <speakerDescriptionId>197</speakerDescriptionId>
    <spokenText><multilingual>
                            a                          e
           <FR>A minuit voil` ce que 186 millions d’am´ricains entendaient sur la vin
                      ı                   e e
               de chaˆnes de radio et de t´l´vision. </FR>
           <IT>A mezzanotte, ecco cosa sentivano 186 milioni di americani sulla ventin
               di radio e televisione. </IT>
    </multilingual></spokenText>
  </phrase>
...

     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1                     Introduction   24 / 64
Cours ECT 1
   Quels textes ?
      Typologie des textes



L’information dans les textes
                   ´                                              ´
Extraire des caracteristiques sous une forme manipulable pour representer
l’information.
                 ´
Par quoi est portee l’information ?
        Le mots, la ponctuation, la phrase, le paragraphe, ...;
        Le “document”, ou une partie;
        Les balises.

Nettoyage et normalisation
  ´                           ´
Creation d’une forme intermediaire des textes respectant l’information utile,
                         ˆ                               ´
proche de l’originale, prete pour l’extraction des caracteristiques.
      ´            `
    L’etape premiere et primordiale,
              `    ´
    elle vise a “preparer” le texte,
                                                  ´
    en segmentant le flux d’information en unite de sens.
              ´      ´
        Cette etape depend de nos besoins, de nos ambitions.
     Alexandre Allauzen (LIMSI-CNRS)    Cours ECT 1                 Introduction   25 / 64
Cours ECT 1
   Quels textes ?
        ´
      Pre-traitement : nettoyage, normalisation



Nettoyage


Isoler et structurer l’information
        extraire les parties utiles;
                                    ´
        structurer le documents si necessaire;
        traiter l’encodage.

Exemple : une page html
                            ´
        Isoler les zones interessantes (titre, auteur, date, contenu).
         ´
        Ecarter le reste.
                         `
        Codage des caracteres.
        Prenez un article sur lemonde.fr, et transformez le en un texte utilisable.



     Alexandre Allauzen (LIMSI-CNRS)              Cours ECT 1            Introduction   26 / 64
Cours ECT 1
   Quels textes ?
        ´
      Pre-traitement : nettoyage, normalisation



Normalisation

Objectifs
          ´                       ´ ´
        Definir et segmenter les elements d’information, par exemple segmenter
                  ´
        les donnees en mots.
                                                             ı´
        Limiter les variantes, respecter les nuances : ambigu¨te vs couverture
        lexicale.

Qu’est-ce qu’un mot ?
                        `
Un token = des caracteres entre 2 espaces = un mot ?
      ´        ´
    c’etait et etait; ou mots. et mots
        Le et le, Roman et roman, ou Livre et livre
        dix milles, 10000, 10,000, 10 000, ...
        5 minutes, 5m, 5 min, 5 ms, ...


     Alexandre Allauzen (LIMSI-CNRS)              Cours ECT 1       Introduction   27 / 64
Cours ECT 1
   Quels textes ?
        ´
      Pre-traitement : nettoyage, normalisation


´
Etape classique de normalisation




                        ´
        Traitement des debuts de phrase
        Conserver ou non la casse (Tout en majuscule ou en minuscule)
        Traitement de la ponctuation
        Traitement des chiffres en mots
                            ´   ´
        Traitement des unites frequentes




     Alexandre Allauzen (LIMSI-CNRS)              Cours ECT 1      Introduction   28 / 64
Cours ECT 1
   Quels textes ?
      Quels niveaux ?



Que peut on utiliser dans les textes ?

A partir du texte original :
              `
        Caracteres
        Mots : vocabulaire, dictionnaire, stop-list
                                   ´         ´
        Ensembles de mots : entites nommees, n-grammes de mots,
        co-occurrences, collocations
          ´
        Sequences de n mots (n-gram)
        Balises (XML, liens hypertextes)

Texte enrichi
        ´
        Etiquettes grammaticales, classes lexicales
                    ´     ´
        Concepts, reseau semantique


     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1                Introduction   29 / 64
Cours ECT 1
   Quels textes ?
      Quels niveaux ?



          `
Les caracteres ou les mots


          `
Les caracteres
                                         ´                              `
        Identification de la langue par frequence de succession de caracteres.
        Typage de textes.

Les mots
                          ı           `
        Mots simples, chaˆne de caracteres entre blancs (tokenisation)
        Mots composes´
                        ´
        Formes composees : Y-a-t-il?
                ´
        Mots inflechis ou non (lemmatisation)




     Alexandre Allauzen (LIMSI-CNRS)   Cours ECT 1                   Introduction   30 / 64
Cours ECT 1
        ´
    Representation et manipulation des textes, distances




Plan
1      Organisation du module
          Organisation
          Les TDs
2                   `
       Introduction a la fouille de textes
                            `
          Position du probleme
                                            ´
          Applications de la fouille de donnees textuelles
                                     `
          Fouille de textes : synthese
3      Quels textes ?
          Typologie des textes
             ´
          Pre-traitement : nettoyage, normalisation
          Quels niveaux ?
4           ´
       Representation et manipulation des textes, distances
          Sac de mots
                ´
          Representation enrichie et sac de termes
                ´
          Representation vectorielle
                     ´
          Quelles methodes pour fouiller ?
      Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   31 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



      `
Hypothese du sac de mots
        ´
Une representation simple
        Un document est un sac.
        Ce sac contient des ”tokens” (des mots la plupart du temps) qui
                                                   ´                  ´
        apparaissent une ou plusieurs fois : caracterisation par la frequence.

      `
Hypothese simplificatrice
                                    ´
        L’ordre des tokens est ignore.
                                       `
        La structure du texte est mise a plat.

Choix
                     ´                                 ´ ´
        Les mots representent-ils le texte ? Doit-on preferer des termes, des
        tokens ?
             ´
        La frequence est-elle la bonne mesure pour l’importance d’un mot dans
        un document ?
     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   32 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



Histogramme de mots du Cid - 1
  1           429       de                            `
                                      Tous cela est tres informatif !
  2           264       l’                                            ´
                                      Normalisation : mieux vaut separer l’a.
  3           259       ?                                      ´
                                      La ponctuation est-elle necessaire ?
  4           258       et
  5           245       un
  6           230       en
  7           229       le
  8           220       que
  9           201       mon
  10          198       est
  11          191       Et            La normalisation n’est pas satisfaisante.
  12          189       d’
  13          187       je
  14          177       la
  15          167       il
  16          155       vous
  17          151       qu’
  18          142       ma
     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1             Introduction   33 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



Histogramme de mots du Cid - 2
  40          67      trop                 Attention aux ex aequo
  41          67      Rodrigue                                ´
                                           Enfin un mot caracteristique du contenu
  42          65      j’
  43          65      du
  44          65      Mais
  45          64      au
  46          63      honneur
  47          63      ai
  48          62      bien
  49          61      des
  50          59      fait
  51          58      ta
  52          57      Que
  53          55      te
  54          54      amour                Ce n’est pas une notice technique
  55          54           `
                      Chimene
  56          53      ton

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1               Introduction   34 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



L’usage d’une Stop list
               ´                      ´
Ne pas considerer les mots les plus frequents car peu informatifs, il s’agit
entre autre de mots “outils”.
Quels mots ?
                  `     ´
        Mots tres frequents (statistique), mots-outils (linguistique : article,
        coordination, pronom ?)
                   ¸                                               ´
        En francais sur 2 ans du Monde, les mots les plus frequents sont : de, la,
                `
        l’, le, a, les, et, des, d’, en, un,du, une, ?
                                                                            `
        Dans Le Petit Prince : le, de, je, il, et, les, un, la, petit, pas, a, prince, ...

Les mots-outils sont-ils vraiment inutiles?
        Utiles, pour le typage de textes
        Utiles, pour la reconnaissance de la parole
        Inutiles, en indexation de documents

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1         Introduction   35 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



Un exemple de Stop list
        `
        A partir de 10 ans du Monde                                     `
                                                                        A partir du Cid
          de      16 702 498                                              1     429 de
          la      9 239 401                                               2     264 l’
          le      7 048 266                                               3     259 ?
          l’      6976607                                                 4     258 et
          a`      6420974                                                 5     245 un
          les     5817392                                                 6     230 en
          et      5788667                                                 7     229 le
          des     5152941                                                 8     220 que
          d’      4714871                                                 9     201 mon
          en      4238803                                                 10 198 est
          un      3922091                                                 11 191 Et
          du      3831582                                                 12 189 d’
          a       3107500                                                 13 187 je
          une     3039016                                                 14 177 la
          est     2528000                                                 15 167 il
          que     2458109                                                 16 155 vous
          dans 2418955                                                    17 151 qu’
     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1                     Introduction   36 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



Morphologie et flexion du mot

Lemmatisation (stemming)
                                           ´
        Est-ce utile d’avoir 2 comptes differents pour avoir, ai, auront ou jetable,
        jetables ?
                ¸
        Remplacons les mots par les racines. Utilisons des termes plus que des
        mots.
        Comment lemmatiser automatiquement ? Il existe des algorithmes
        Porter, KStem ... voir par exemple Lemur ou TreeTagger.

               ´
Les mots composes
        Par exemple : autoroute autosatisfaction et auto-stop
                               ˆ
        En allemand, cela peut etre critique.



     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1    Introduction   37 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



Les mots et la loi de Zipf


Monsieur GZ
             ´
Dans les annees 30, un scientifique de Harvard, G.K. Zipf postule que toute
       ´
activite humaine s’inscrit dans le principe du moindre effort.

Illustration par le langage
                                       ´        ´
En classant les mots d’un texte par frequence decroissante, on observe que la
  ´                                                              `
frequence d’utilisation d’un mot est inversement proportionnelle a son rang, r.

                                                                         K
                                                          f (mot) =
                                                                      r (mot)



     Alexandre Allauzen (LIMSI-CNRS)                           Cours ECT 1      Introduction   38 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



Loi de Zipf type




     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   39 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
      Sac de mots



Sur le Petit Prince




     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   40 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation enrichie et sac de termes



Partie du discours
POS : Part of speech
             ´
La classe/categorie morpho-syntaxique d’un mot.
                                                                       ˆ
        Un mot (token) peut suivant son contexte (la phrase) avoir un role
                       ´                         ´
        syntaxique different et parfois un type semantique variable.
                       ´                                                   `
        Ne plus considerer un texte comme une suite de mots, mais associer a
        chaque mot sa classe morpho-syntaxique.

´       ´
Etape preliminaire et indispensable pour :
         ´                                    ˆ
        determiner le sens d’un mot (qui peut etre multiple),
        extraire des termes particuliers,
        analyse grammaticale de la phrase,
                       ´                   ´ ´
        analyse des dependances entre les elements d’un texte,
                                 ´
        ... le chemin de la comprehension.
     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   41 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation enrichie et sac de termes



     ´     ´
Entite nommee

         ´     ´
Une entite nommee, c’est un nom propre, mais encore ...

   ´              ´      ´
Categories d’entites nommees (non-exhaustif)
        Nom d’entreprise,
        de personnes,
                   ´ ´
        de lieu, d’evenement, mais aussi
                         ´                              ´        ´ ´
        des montant monetaire, des dates (1515), des numeros de telephones.

         ´     ´                             ı
Une entite nommee est un concept qui ne connaˆt qu’une seule instance
                           ´    ´
”Le Premier Ministre a declare ce matin .... ” mais que dire de ”Selon les
                 ˆ
institutions le role du premier ministre ... ”



     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   42 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation enrichie et sac de termes



 ´
Sequence de mots ou n-gram


Principe
        Un mot est predit par les n − 1 precedents (en pratique n ≤ 4)
                        ´                 ´ ´
          `        ´
        Tres utilises en reconnaissance de la parole, IRI, traduction automatique.
        ` partir des frequences de successions de n mots dans un corpus, on
        A               ´
          ´           `
        cree un modele de langage.
        Probabilite de trouver mot connaissant les n − 1 mots qui le precedent
                   ´                                                     ´ `

Modelisation du langage par une source markovienne d’ordre n − 1
   ´
                                                                          T
           n=2             bigramme                 P(W ) = P(w1 ) i=2 P(wi |wi−1 )
                                                                             T
           n=3             trigramme                P(W ) = P(w1 )P(w2 |w1 ) t=3 P(wi |wi−1 wi−2 )



     Alexandre Allauzen (LIMSI-CNRS)                        Cours ECT 1                     Introduction   43 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation enrichie et sac de termes



Exemple de n-gram


    `     ¨
Le pere Noel est une ordure
                                 `         ¨
        1-gram (unigram) : Le, pere, Noel, est, une, ordure
                                  `      `        ¨  ¨
        2-grams (bigrams) : Le pere, pere Noel, Noel est, est une, une ordure
                                  `        ¨    `   ¨         ¨
        3-grams (trigrams) : Le pere Noel, pere Noel est, Noel est une, est une
        ordure
                                       `        ¨      `    ¨            ¨
        4-grams (quadrigrams) : Le pere Noel est, pere Noel est une, Noel est
        une ordure
                                      `        ¨         `      ¨
        5-grams (pentagrams) : Le pere Noel est une, pere Noel est une ordure
        Probabilite 3-grams : p(Noel | Le pere )
                  ´                 ¨        `




     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   44 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation enrichie et sac de termes



Le sens des mots


     ´
Polysemie et synonymie
                                                ´
        Un mot peut avoir plusieurs sens, cela depend du contexte
           ´
        (pre-traitement) : grave, titre, bank
                                              ˆ
        Plusieurs mots peuvent contribuer au meme sens.

Collocation
                                        ´
        Le sens de la somme est different de la somme des sens : home run, la
        maison blanche, pomme de terre, disque dur.
        Et l’adjectif blanc pour le vin, les cheveux, la peau.
        Comment les detecter ? Comment les traiter ?



     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   45 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation enrichie et sac de termes



                     ´   ´
Mots, termes ... en resume


Rappel des objectifs
       ´                          `
La representation d’un texte vise a le transformer en un ensemble
                      ´
manipulable de caracteristiques.

                             ´
Qu’est-ce qu’une bonne caracteristique ?
        Le token : AT&T, S.N.C.F, basse-normandie, 11/09/01
        Stoplist : retirons les mots inutiles, mais quels sont-ils ?
        Lemmatisation : gardons la racine.
                                                                             ´
        Le token enrichi par une classification en contexte : POS, sens, entite
              ´
        nommee, ...



     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   46 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



 ´                        ´
Selection de traits caracteristiques


                             ´
Nombre de traits et complexite

                   ´
Mesure de complexite :
        Entropie, poids du trait et distribution dans les textes
        Tf-Idf (Recherche d’information)

Recherche des traits dominants
        par analyse en composantes principales
        par regroupement de traits en classes de traits pour simplifier la
            ´
        representation




     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   47 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



    ´
Representation vectoriel d’un document
      `
Hypothese
                                         ´
Un document = un texte = un sac de caracteristiques = vecteur.
             ´
Si les caracteristiques sont les mots :
                                                                  ´
        se placer dans l’espace ou un mot (token) est un axe gradue.
                                                            ´
        le vocabulaire d’un texte devient un vecteur de booleens,
        une distribution devient un vecteur contenant le nombre d’occurrence des
        mots

L’exemple d’un dialogue avec une machine
        Q : combien j’ai de doigts ?
        R : ”11O11” → R = {1, 4}
        Q : quelle heure est-il ?
        R : ”00001011” → R = {5, 3}

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   48 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



    ´
Representation vectorielle : implications

            ´          ´
        la sequentialite des mots est perdue.
        Chaque texte est devenu un sac de mots
        Les composantes d’un vecteur texte
        Tj = {f (m1 )Tj , f (m2 )Tj , ..., f (mV )Tj }
        f (mi )Tj represente le poids du mot (token) mi dans le document (fichier)
                      ´
        Tj .
        Si le document contient n mots differents (n ≤ V ), il y a n composantes
                                                       ´
        non nulles et V − n composantes nulles
                                 ¸
        Par exemple, en francais il y a plusieurs centaines de milliers de mots
             ´
        differents, ...
        dans le chapitre 2 du Petit Prince, seulement 309 !
        Longueur d’un document Nombre d’occurrences dans le document, N
        (N ≥ n)

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   49 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



    ´
Donnees ”creuses” ou Data Sparsity

Regardons Le Monde
                                                        `
        Pour fixer le vocabulaire, prenons 10 ans, apres filtrage des mots
        apparaissant plus de 10 fois (effet Zipf) : espace de dimension 200k.
        Un article particulier extrait de ce corpus : un vecteur de 275
        composantes non-nulles.

Counts of counts
  Compte               Compte du compte                   Compte        Compte du compte
  1                    222                                6             3
  2                    28                                 7             2
  3                    13                                 8             2
  4                    2                                  11            1
  5                    1                                  23            1

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1                      Introduction   50 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



    ´                             ´
Representation vectorielle et implementation
des solutions peu ou moins satisfaisantes

Vecteur et tableau
        Pour un vecteur de compte de mots : tableau d’entier.
        Le vocabulaire est de taille V (= 200k ) comme le vecteur, mais “creux” :
        275 entiers utiles sur 200k : ratio de 0,13 %.
                                      ´
        En plus, ce n’est pas termine : stocker l’association de l’indice dans le
        tableau, avec le mot correspondant (le rang lexicale par exemple).

                    ı ´
Vecteur et liste chaˆnee
          ´
        Definir une structure ou une classe pour manipuler le couple
               ´
        (mot,frequence).
           ´                    ı ´                                 ´
        Creation d’une liste chaˆnee de ”couples” : occupation memoire correcte,
             `
        acces pas rapide.
                 ´ ´         `                           ı ´      ´
        Pour accelerer l’acces, construire des listes chaˆnees triees dans l’ordre
         ´                 ´
        decroissant des frequences.
     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   51 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



    ´                             ´
Representation vectorielle et implementation
une solution satisfaisante

Table de Hashage
                      ´
        encore nommee tableau associatif, ou hashtable.
                  ´ ´
        Principe general : Un ”objet” pointe sur un autre objet.
                       ´                ´
        Association (cle,valeur) : la cle permet de calculer l’adresse ou est
                                                                        `
              ´             ˆ    `
        stockee la valeur grace a la fonction de hashage.
                                                     ´ ´
        Exemple typique d’application : l’annuaire telephonique.
                                   ı            `                   ´
        Dans notre cas : une chaˆne de caractere pointe sur sa frequence.

    ´
Implementation d’une hashtable
                                                        ´
        La plupart des langages proposent une implementation des hashtables.
                                       ´
        Il faut dans certains cas (re)definir la fonction de hashage.
                                                                    ´ `
        En C++, la STL contient un template map, en Perl ca existe deja, en
                                                          ¸
                                    ´ ´       ´ ´
        Java il existe un type parametre (ou generique) HashMap< K , V >.
     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   52 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



      ´
Pour resumer

  ´
Preparation des textes
                                      ´
Un texte n’est jamais utilisable en l’etat.
        Nettoyage des textes
        Normalisation

    ´
Representation vectorielle des textes
Representation d’un texte comme un ”sac” de termes → un vecteur de
     ´
       ´
caracteristique.
        Se placer dans un espace ou chaque dimension (chaque axe) est un
                                        `
        terme.
                         ´
        L’axe est gradue par un score, un poids : tf, ou tf*idf.
        Attention a la loi de Zipf, les donnees sont creuses → utiliser des
                  `                         ´
        hashtables.

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   53 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



Exemple de code

En Java
HashMap<String, Integer> mfreq = new HashMap<String,Integer>();
mfreq.put("de",new Integer(323));
mfreq.put("le",145); // Depuis 1.5
System.out.println("La frequence de le : "+ mfreq.get("le"));
if (mfreq.containsKey("de"))
    mfreq.put("de", mfreq.get("de")+1);
System.out.println("La frequence de de : "+ mfreq.get("de"));


En Perl
%mfreq = ();
$mfreq{"de"} = 323;
$mfreq{"le"} = 145;
print "la frequence de le : ".$mfreq{"le"}."\n";
if ($mfreq{"de"}){
    $mfreq{"de"}++;
}
print "la frequence de de : ".$mfreq{"de"}."\n";



     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   54 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



         ´
Similarite des documents
Documents similaires
                                                         ˆ
        Les textes qui se ressemblent contiennent les memes mots ou des mots
                                    ˆ
        qui apparaissent dans les memes contextes.
                `
        Hypothese distributionnelle de Harris : les mots qui ont des contextes
        identiques sont similaires.

Vecteurs similaires
                                           `
Dans l’espace vectoriel, ils correspondent a des vecteurs proches.

    ´
Representation dans l’espace
                                                                 ´
        Dans l’espace vectoriel de dimension V, les vecteurs representant les
                                       ˆ
        textes forment un faisceau de meme origine.
        les vecteurs proches ont des directions quasi-identiques ou dont les
             ´    ´
        “extremites” sont proches
     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   55 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



Comparaison de 2 textes//vecteurs



Exemple
T1 = {2, 1}, T2 = {4, 2}, T3 = {1, 2}

                                           ´                 ˆ
        T1 et T2 sont deux vecteurs colineaires, ils ont la meme direction.
                                                       ´
        T3 et T2 sont deux vecteurs de directions differentes.
                                  ´                                   ´   ´
        Avec des vecteurs normes, t1 et t2 sont similaires, leurs extremites sont
        confondues
                 ´   ´
        Les extremites de t3 et t2 sont distinctes.




     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   56 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



Normes des vecteurs
                  T        T           T
Si Tj = {f1 j , f2 j , ..., fV j }

Norme L1
      ´                     ´                            ´
Utilisee pour obtenir des frequences, des ”probabilites”, distributions ou
profils.
                              Tj L1 = f1 + f2 + ... + fV
                       `
La norme L1 correspond a la longueur du documents.

Norme L2
Norme habituelle,”longueur du vecteur”

                                                   Tj          =     2    2          2
                                                                    f1 + f2 + ... + fV
                                                          L2




     Alexandre Allauzen (LIMSI-CNRS)                               Cours ECT 1           Introduction   57 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



           ´  ´
Distances geometriques entre vecteurs

                                                              T     T                   T   T
                          Deuclidienne (Tj, Tr ) =         (f1 j − f1 r )2 + ... + (fV j − fV r )2
                                                              T    T                T     T
                                   DManhattan (Tj, Tr ) = |f1 j − f1 r | + ... + |fV j − fV r




     Alexandre Allauzen (LIMSI-CNRS)                       Cours ECT 1                               Introduction   58 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



                         ´
Autre mesure de similarite : Indice de Jaccard

Indice de Jaccard
         ´
Similarite lexicale entre 2 textes:
        compte des mots communs (formes et non occurrences) aux 2 textes,
        compte des formes distinctes dans le texte 1 (ensemble m1), pareil dans
        le texte 2 (m2)
                         m1 ∩ m2              m1 ∩ m2
                      s=           =
                         m1 ∪ m2      (m1 + m2) − (m1 ∩ m2)

         ´
Similarite et distance
d = 1 − s, varie entre 0 et 1

         `
Convient a des vecteurs binaires


     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   59 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



Divergence de Kullback-Leibler



          ´
        Theorie de l’information, approche probabiliste.
                                            ´
        Ce n’est pas une distance (pas symetrique).
        Quantifie la divergence entre 2 distributions pi et pj :
        le cout d’emettre p2 comme hypothese alors que la verite est p1
             ˆ    ´                         `                   ´ ´
                                                          pi
        d(p1 |p2 ) =                k ∪V
                                            i
                                           pk log( k )
                                                   j
                                                          pk
                    `              ´
        Application a vecteurs normes par L1.




     Alexandre Allauzen (LIMSI-CNRS)                           Cours ECT 1   Introduction   60 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



      ´                                    ´
Pour resumer sur les distances et similarites




                                     ˆ                    ˆ
        Si 2 textes contiennent les memes mots, dans les memes proportions, ils
                            ´
        sont similaires (independamment de l’ordre des mots)
                               ˆ                                  ´
        S’ils contiennent les memes mots dans des proportions differentes, ils
        sont dissemblables
                                                       `
        S’ils n’ont aucun mot en commun, ils sont completement dissemblables




     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   61 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



              ´ ´
L’ouvrage de reference




                                                               MIT Press, 1999.

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1             Introduction   62 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
          ´
      Representation vectorielle



 ´ ´
Reference

Livre
Statistique textuelle, L. Lebart A. Salem, 1994, Dunod

Cours
        http://www.stanford.edu/class/cs276b/syllabus.html, Manning, Raghavan
        et Schutze, 2003.
                ¨
        http://www.inf.ed.ac.uk/teaching/courses/dil, le cours de P. Koehn ”Data
        intensive linguistic”, 2006.

Article
  A comparative Study on Feature Selection in Text Categorization , Yang
et Pedersen, 1997, Proceedings of ICML-97, 14th International Conference
on Machine Learning

     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   63 / 64
Cours ECT 1
       ´
   Representation et manipulation des textes, distances
               ´
      Quelles methodes pour fouiller ?



         ´
Quelles methodes pour fouiller ?




`
A suivre




     Alexandre Allauzen (LIMSI-CNRS)                      Cours ECT 1   Introduction   64 / 64

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:20
posted:11/27/2012
language:
pages:64
Description: fouille de texte master 2