Vers des traitements santiques by liuqingzhan

VIEWS: 8 PAGES: 49

									Nouvelles méthodes d ‘accès assisté à
          l‘information :

recherche / extraction / restitution…




                                        1
              II. Nouvelles tendances en RI


•   Des analyses (limitées) du « contenu »
    1.   Méthodes sémantiques d ‘Indexation (expansion de requêtes…)
    2.   Combinaison EI-RI - (RI structurée)
    3.   Systèmes de Question/Réponse
    4.   Résumé, Navigation inter/intradocumentaire

•   Documents multimédia : texte / audio / vidéo




                                                                       2
            1. Méthodes sémantiques d ‘Indexation :
Indexer les documents dans un « espace sémantique » plutôt que
                  « de termes » (mots-formes)

          Approche 1. Exploiter les relations lexicales

B Synonyme de A : Sens équivalent
   B Hyperonyme (Hyponyme)de A : Désigne une sur-classe (une sous-
     classe)
   B Méronyme de A : Désigne une partie de A
                          Navire ≈ Bateau          hyper/hyponyme



voile hélice gouvernail   voilier cargo paquebot      méronyme

                          dériveur   3 mats

                                                                     3
•Expansion de requête
 – Etendre la requête à des mots sémantiquement proches
 – De la forme « matérielle » (mot) au concept
 – Problème : limiter le bruit. Où s ‘arrêter dans les similitudes entre mots ?




                                                       navire          voilier
                           xxx
                           yyy    comparaison                 bateau
                     ttt   zzz
                     xxx   ttt
                     uuu   …                          cargo
                     …
                                                      Porte cochère




                                                                                  4
• Ressources lexicales
   – Généralistes :
       Wordnet http://www.cogsci.princeton.edu/~wn/,
       Eurowordnet http://www.illc.uva.nl/EuroWordNet/,
       Balkanet http://www.ceid.upatras.gr/Balkanet/
       Sémiographe (Mémodata) http://www.memodata.com
   – Spécialisées : expansions de ces ressources généralistes pour un
     domaine technique
   – Dictionnaires de terminologie
   – Dictionnaires de synonymes
   – Dictionnaires de langue
   – …




                                                                        5
Approche 2 : « Espace sémantique » : concepts, entités, thèmes…


Exemple : Moteur de recherche Intuition Sté Sinequa
http://www.sinequa.com
(cf aussi Sté Lingway : http://www.lingway.com)


Combinaison de plusieurs méthodes
  – Stemming (racinication), lemmatisation
  – Dictionnaire « thématique »
  – Entités nommées
  – Concepts (‗ terminologie ‘)
  – Classification multiple des documents


                                                            6
• Dictionnaire « thématique »
   – L‘idée consiste à répartir ― l‘univers des mots ‖ sur un espace avec
     un nombre de dimensions fixe :environ 800 dimensions (1
     dimension = un ensemble de mots).

   – Un mot peut appartenir à plusieurs dimensions à la fois.
   Par exemple, le mot avocat appartiendra à la dimension
     justice/juridique, mais également à la dimension fruit/aliment.

   – Chaque document est converti en un vecteur sémantique à 800
     composantes. Le poids attribué à chaque dimension dépend
     principalement du nombre de termes trouvés dans le document.

   – Une désambiguïsation locale est effectuée pour renforcer le poids
     attribué à une dimension lorsqu‘un mot appartient à plusieurs
     d‘entre elles.

                                                                            7
  justice               justice                  justice



                                   fruit                      fruit
            fruit

Requête 1            Requête 2                Requête 3
avocat               avocat à la Cour         récolte des avocats

                    Désambiguisation locale




                                                                      8
• Entités nommées
    – Reconnaissance par automates (transducteurs) Noms de
       personnes (Jacques Chirac, George W. Bush, Messier…)
    – Différents types
Sociétés/Organisations (Canal +, ONU, Dupont Corp…),
Lieux (Paris, Allemagne, Rhône-Alpes…),
Temporel (12 décembre 99, samedi soir, 1997…),
Chiffres (12 %, 30 K¤, 30 milliards de dollars…).
    – Normalisation : Blair, Tony Blair, T. Blair…
    – Visualisation
   L’affaire de l’arsenal irakien déstabilise Bush et Blair
   Aux Etats-Unis et en Grande-Bretagne, la polémique sur les armes de
   destruction massive (ADM) irakiennes prend un tour de plus en plus
   embarrassant pour le président américain, George W. Bush, et pour le
   premier ministre britannique, Tony Blair…


                                                                          9
10
• « Concepts »

  – Extraction de « termes-concepts » = groupes nominaux minimaux
    (1-3 mots) (automates)

  – Liens entre « concepts » obtenus par cooccurrence dans un corpus
    large => réseau de concepts

  – Indexation d ‘un document par ces termes-concepts

  – Le moteur retourne, en plus des documents eux-mêmes, les
    concepts les plus pertinents
  Calcul de pertinence : termes de fréquence (pondérée : type tf.idf)
    maximale dans l ‘échantillon retourné.



                                                                        11
12
Concepts
    licenciement économique
    procédures de licenciement
    plans de licenciements
    plans sociaux
    contrats de travail
    prud'hommes
    motif économique
    indemnités de licenciement
    CDD
    lettre de licenciement


Exemple : Concepts liés à la requête licenciement




                                                    13
• Résultat : indexation multiple (plusieurs « espaces
  sémantiques »)

   –   « Dimensions » de la langue
   –   Entités nommées
   –   Concepts
   –   …


• Pour une requête donnée :
   – pondération de différents critère d ‘adéquation entre document et requête
   – Dispositifs de visualisation de documents retournés (« enrichis »): entités
     nommées, concepts associés




                                                                                   14
        2. Recherche d‘information « structurée »
                      Un croisement RD-EI
Objectif

   - Analyser la structure de la requête, identifier « l ‘information »
      (concept) cherché
   - Trouver dans le texte cette information (et non seulement « des
      mots de la requête ») : analyse locale, matching de « structures
      informationnelle »
   - Retourner les passages concerné (1) « Donnez moi les textes
      concernant les transaction en Europe d'un montant supérieur à 1
      Meuro »




                                                                          15
Exemple 1 : "FACILE : Classifying Texts Integrating Pattern Matching and
   Information Extraction", IJCAI 99 - F. Ciravegna et al. (Trente, Vienne,
   Milan, Manchester)


Exemple de requête : « Donnez moi les textes concernant les transaction
   en Europe d'un montant supérieur à 1 Meuro »
Documents : articles et dépêches économiques
Méthode :
    – RD pour une première sélection de documents + trouver des
       passages « homogènes »
    – EI pour un matching « fin » des requêtes sur le texte.
On cherche à instancier une « Micro fiche ». Exemple :
un EVT de type TRANSACTION associé à une ENTITE LIEU de valeur
   'Europe' et une ENTITE MONTANT de valeur supérieure à la valeur
   donnée de 1 Meuro.

                                                                              16
Exemple 2
(GéoSem : GREYC, ERSS, EPFL…)
« Trouver les passages qui parlent de la sécurité maritime dans la
   Manche »
« Trouver les passages qui parlent des difficultés scolaires dans l ‘Ouest
   dans les années 1980 »

Retour :
    - passages textuels indexés par Thème + Temps + Espace
    (+ cartes)
    - Espace et Temps : analyse syntagmatique
    - Thème : Indexation par des termes-concepts (cf. Lingway, Sinéqua)




                                                                             17
                  3. Questions/Réponses
         (Question Answering / Answer Extraction)
                   Une tâche ambitieuse
Exemples de Requêtes
(1) « Qui est l‘auteur du ‗ Dernier tango à Paris ‘, Quels autres films a-t-il
    réalisé récemment ? »
(2) « Comment fait-on pour changer les droits d‘accès (man. Unix) ? que
    fait la commande ‗tar‘ »
Corpus
Documents sur le Web / Manuels techniques (ou autre docs spécialisés)
Résultat de l ’analyse
- La « réponse » (question answering): B. Bertollucci : Little Budha,
    Besieged, The Dreamers…
- ou : Des phrases ou passages contenant la réponse (answer extraction)

                                                                                 18
Différents types de requêtes
Simples : QUI/OU/QUAND
-Où est le Taj Mahal ?
-Quelle est la population actuelle de Tucson ?
-Qui était le premier secrétaire d'Etat de Nixon ?

Listes
-Nommer 30 personnes ayant participé au cabinet de R. Reagan.
-Quels sont les acteurs du film Z ?
-Nommer 4 pays producteurs de diamants.




                                                                19
Ouvertes
- Biographie résumée de Colin Powell (personnage public) ?
nom, surnoms, adresse, date de naissance, formation…
- Que savons nous de la société Y ?
structures organisationnelle, lignes de produits, dirigeants…
- Comment fait-on pour changer les droits d’accès (man. Unix) ?
 que fait la commande ‘tar’

« Contexte »
-Quelle cépage est utilisé dans le Château Petrus ?
combien coûte le cru 1999 ? où le propriétaire a-t-il fait ses études ?
quel domaine possède-t-il en Califormie ?
- Combien existe-t-il d'espèces d'araignées ? combien
sont venimeuses ? quel pourcentage de piqûres sont fatales ?



                                                                      20
Méthodes
Deux types (± combinées éventuellement) :
- type EI : compréhension assez complète de la question et analyse
    linguistique du texte
- type RD : appariement basé sur de cooccurrence de mots




                                                                     21
Exemple 1 : Méthodes de RD + analyse simple de la
   question
« A question answering System Supported by Information
   Extraction », R. Srihari, W. Li

« Who won the 1998 Peace Nobel Prize »
 Pattern :
   Asking point : PERSON
   Key words : {won, 1998, Peace,Nobel Prize}
 Repérage dans le texte d‘un entité PERSON dans un
  contexte contenant les mots-clés.

                                                         22
 Exemple 2 : Analyse plus structurelle de la question et du
   texte - Reconnaissance de motifs
 QUALC (B. Grau, LIMSI)

               Qui a réalisé le Dernier Tango à Paris ?



Entité :         Connecteur               « Dernier Tango à Paris »
Personne         ≈‘ réaliser ‘



             Motif à reconnaître dans le texte

                                                                      23
Exemple 3 : Méthodes proches de la compréhension
  automatique
« Extrans, an answer extraction system », TAL, 41-2, 2000. - Auteurs :
   D. Molla, R. Schwittler, M. Hess, R. Fournier (Université de Zurich)
- Manuels techniques. P. ex. Man Unix :
« Comment fait-on pour changer les droits d‘accès? que fait la commande
   ‗cp‘ »
- Analyse sémantique du texte
     cp copies files
     holds(e1) & object(cp, x1) & evt(copy,e1,[x1,x2]) & object(file, x2)
- Appariement « logique » avec la question
     Does cp coies files ?
     ?- evt(copy,e1,[X,Y]) & object(cp,X) & object(file,Y)




                                                                            24
  4. Résumé et navigation dans des bases de données
                   documentaires
I. Résumé : Une autre manière d ‘extraire/restituer de
   l ‘information

• Méthodes
   1) Par « extraction » (Type RD +) :
       • Repérage de segments représentatifs de l ‘ensemble d‘un document.
         Retour de ces segments comme résumé.
       Critères de type lexical/statistique : présence « concentrée » des
         termes les plus fréquents (tf.idf)
       • indices linguistiques : « en résumé », « en conclusion », « dans
         cet article nous… » (Tous textes)
       • Vocabulaire spécifique (Domaine ciblé, profil utilisateur…)


                                                                             25
               Bla bla

                Dans ce texte…

                Truc             machin
                truc
                                          bidule…

                Chose             machin              bidule
                                           truc…

                En conclusion…
                                                  bla bla.

Termes représentatifs : truc, bidule, machin, chose

                                                               26
2) Par « compréhension » (type EI) :
– Repérage de segments pertinents (cf méthode 1)
– Analyse linguistique produisant une représentation sémantique ou
  « conceptuelle »
– Génération multilingue

Problème : analyse sémantique
– Textes techniques ciblés
– Exemple : projet MUSI (brevets)




                                                                     27
2. Navigation inter-intra-documentaire

   – Analyse orientée par une requête de l ’utilisateur
   – Sélection de passages dans le (les) document(s)
   – Visualisation / navigation dans le corpus par des dispositifs de
     visualisation
   – Exemple : projet Régal (ou Géosem…)
   – Peut être couplé avec du résume = même type de techniques,
     présentation différente ou complémentaire




                                                                        28
29
Conclusions / Discussion : Accès assisté à l‘Information

• Des tâches ambitieuses, impliquant une analyse «fine », du
  « contenu » des documents
• Bien au delà de la « recherche documentaire » classique.
• Grande variété de tâches possibles (et combinables)
• Faisabilité :
    Une idée reçue « Seuls les traitements numériques et ‗de surface‘
     peuvent être suffisamment efficaces »
    Pas sur le « corpus-web » (probablement)
    Pour des fonds documentaires spécialisés (ou après filtrage)
      — Formes et connaissances spécifiques « fortes » exploitables
      — Utilisateurs avertis et exigeants


                                                                         30
    II. L‘exemple du document géographique

Pourquoi ?
  Usage social (collectivités, grandes entreprises…)
  Etudes locales (Collab. Informatique-Géographie)
  Des caractéristiques fortes :
     – Macro structuration de l’information
     – Documents (souvent) longs
     – Composite : texte + cartes (et autres graphiques)
Projet GéoSem
  Programme pluridiscip. « Société de l‘Information »
  GREYC(Info), ESO (Géo.), ERSS(Ling.), EPFL (Doc.)
  Etape d ‘un projet à long terme : Sémantique/TALN
                                                           31
 Structuration de l‘Information Géographique

• Associe :
  – Un phénomène (P)               Quoi ?
  – Un espace (E)                  Où ?
  – (souvent) Un temps (T)         Quand ?

• Se repère immédiatement sur des documents




                                              32
La féminisation du corps enseignant du premier degré est très
variable selon les départements: un instituteur pour deux
institutrices dans le Pas-de-Calais, en Ariège et en Lozère,
mais un pour quatre, voire pour cinq, dans les départements
parisiens. En règle assez générale, la féminisation du premier
degré est d'autant plus grande que l'urbanisation est importante,
les vieilles régions industrielles et le Languedoc faisant
exception.


                                                             33
…
Jusqu’au milieu des années 1980, les taux de retard
scolaire ont fortement varié selon les configurations
géographiques
…
Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-
Atlantiques, seulement un enfant de 6° sur trois est en
retard scolaire
…



                                                          34
                       Objectifs du projet

• Interrogation multidimensionnelle
   –   Retard scolaire dans l ‘Ouest dans les années 1950
   –   Politiques de sécurité maritime dans la Manche
   –   Evolution du vote FN dans l‘Ouest entre 97 et 2002
   –   Contrastes/similarités électorales entre Normandie et Bretagne


• Retour : segments du document
   – Passages de texte
   – Cartes


• Problématique de document long et composite
                                                                        35
36
              Facettes de l‘analyse



1. Sémantique locale :Expressions spatiales et
   temporelles
2. Sémantique textuelle : Segmentation discursive
3. Extraction de connaissance : Structuration du
   domaine
4. Sémiologie des cartes et liens avec le texte



                                                    37
        1. Expressions spatiales et temporelles
• Syntagmes nominaux et prépositionnels complexes
   – Jusqu’au milieu des années 1980
   – Dans les départements ouvriers du nord de la France
• Méthodes « de surface » (suites de mots) impraticables !
• Analyse
   –   Grammaires syntagmatiques « locales »
   –   En Prolog (DCG)
   –   Sémantique compositionnelle
   –   Produit des « structures de traits » interprétables en contexte.




                                                                          38
 Exemple : « Au milieu des années 1980 »

Sémantique abstraite en terme d ’ « opérateurs »
+ Calcul de la référence
               Type : complexe
   temporel
               Opérateur : milieu

                Opérande :   Type : complexe
                             Opérateur : années
                              Opérande : Type : date
                                         Grain : an
                                         Valeur : 1980
               Référence : [1982,1987]

                                                         39
Expressions spatiales
   En Bretagne
   Au Nord d ‘une ligne Bordeaux-Genève
   Dans les départements les plus urbanisé de l‘Ouest



Mêmes méthodes
  - Plus complexe
  - Diffcultés : sémantique spatiale pour le ‗requêtage‘ (en
  cours).
  Faut-il « matcher » :
  Nord de Paris      avec Le 18ème ? Le 93 ? Lille ?
  Dans le Calvados avec Caen ? En Normandie
  Quel degré de pertinence ?
                                                               40
    2. Segmentation discursive (1) : Lien P-S-T


• Problème : faire le lien entre le Quoi, le Où et le Quand

• Méthode :
   – Compléments circonstanciels : approché par cooccurrence dans un
     phrase.
   – Exploitation de lien syntaxiques et de la théorie des « cadres de
     discours » (Charolles)


• Résultat : Indexation « Multi-thème » de segments
  documentaires

                                                                         41
                                            T = 1945-1986
                                            P = ‗retard scolaire‘
…
Jusqu’au milieu des années 1980, les taux de retard
scolaire ont fortement varié selon les configurations
géographiques                             T = 1945-1980
…                                         P = ‗retard scolaire‘
                                          E = Aveyron, Paris…
Ainsi dans l ‘Aveyron, à Paris ou dans les Pyrénées-
Atlantiques, seulement un enfant de 6° sur trois est en
retard scolaire...
…
                                                              42
   2. Segmentation discursive (2) : Analyse rhétorique

• Modèles de structuration du « raisonnement
  géographique » détectables (?) :
   - Loi/Observation générale
   - Instanciation comparative dans l ‘espace, le temps…
   - Synthèse
• Modèle textuel :
   - Structure énumérative
   - Amorce / conclusion
• Applications :
   - Interrogation sur contrastes/similarités : « comparaison des
      situations électorales entre Normandie et Bretagne »
        Similaire à EI, mais au niveau textuel
   - Résumé : exploitation des amorces/synthèses                    43
44
              3. Structuration du domaine (P)
• Détection automatique d ‘axes « structurants »
   – Domaine scolaire : Ecole élémentaire, Collège, Lycée,
     Université… / Privé, Public / Filière technique, générale…
   – Politique : Ext.G., Gauche, Centre… / Elections municipales,
     régionales, législatives…
• Méthodes :
   – Apprentissage sur corpus vaste et homogène
   – Extraction de composantes potentielles (SN complexes)
   – Collecte d ‘indices contextuels : Titres / Introducteurs de cadres /
     Positions thématique (préverbal) /…
   – Hypothèse : les termes « structurants » ont plus de chance de se
     trouver dans ces positions remarquables



                                                                            45
      Niveau : Primaire


               Niveau : Primaire
               Temps : 1991

                    Niveau : Primaire
                    Temps : 1991
                    Statut : privé
Niveau : Primaire
Temps : 1991
Statut : public


          Niveau : Primaire
          Temps : 1991
          Statut : privé




                                   46
                           4. Cartes

• Repérage des titres et légendes et analyse
  linguistique
    Indexation et interrogation en composantes P-S-T
    (même format que le texte)


• Analyse d ’image : regroupements perceptifs
    contrastes et similarité, requêtes relationnelles


• Modèle de la carte : représentation, sémiologie,
  interprétation…
                                                         47
48
49

								
To top