956 texte15 by CRFe4IU

VIEWS: 0 PAGES: 10

									CLASSES D'OBJETS ET RECHERCHE SUR LE WEB
                                         Pierre-André BUVET
                                  Université de Franche-Comté
                                        Pierre-Yves FOUCOU
                      Laboratoire de Linguistique Informatique
Notre objectif est d'établir que les classes d'objets peuvent contribuer à
sélectionner des informations sur le Web en facilitant l'analyse des groupes
nominaux complexes plus ou moins figés. Autrement dit, nous voulons montrer
que l'introduction de critères sémantiques formalisés devrait peut améliorer les
performances des systèmes d'extraction automatique uniquement bâtis, d'un
point de vue linguistique, sur des analyses morpho-syntaxiques (cf., entre autres,
Bourigault 1993, Drouin 1998 et Senellart 1998) A cet égard, la classe des noms
de profession constitue un bon exemple. Nous verrons ici comment utiliser le
Web comme source d'attestation, d'évaluation et d'enrichissement de cette
classe. Nous montrerons comment l'identification automatique des noms de
profession est possible en utilisant les propriétés linguistiques inhérentes à la
classe <profession> 1 . Préalablement, nous discuterons des principales
caractéristiques des noms de profession déjà listés qui pour la plupart sont des
séquences polylexicales plus ou moins complexes (e.g. ingénieur conseil en chef
des services de prévention de la Sécurité Sociale).

1. La classe <profession>
Nous traiterons dans cette section des particularités linguistiques des noms de
profession. Dans un premier temps, nous préciserons les caractéristiques de la
classe <profession>. Nous discuterons ensuite de la segmentation des noms de
profession en têtes et en expansions. Les particularités de ces dernières seront
également traitées.




1
    Par convention, les classes d'objets sont notées entrede chevrons.
1.1 Une définition linguistique des noms professions
La notion de classe d'objets, au sens linguistique du terme, a été développée au
LLI2 (cf. Gross G. 1995, Le Pesant et Mathieu-Colas 1998). Nous l'évoquerons
brièvement avant de présenter la classe <profession>.

Les classes d'objets visent à la formalisation de la sémantique sur la base des
caractéristiques syntaxiques du lexique. Ce sont des ensembles de mots
sémantiquement homogènes ; e.g. les noms d'<aliments>, de <fleurs>,
d'<insultes>, de <maladies>, etc. La définition d'une classe donnée résulte de la
syntaxe des unités lexicales qui la constituent ; chaque classe d'objets est définie
principalement par des verbes, des adjectifs ou des noms que l'on considère
comme les prédicats appropriés définitionnels de la classe considérée (cf.
Mathieu-Colas 1998). L'intersection de leur domaine d'arguments respectifs
correspond nécessairement à l'ensemble des éléments qui constituent la classe
qu'ils caractérisent.

La classe <profession> est constituée de substantifs qui sont tous compléments
(N1) des constructions gagner sa vie comme N1 et exercer la profession de N1 :
             Luc (gagne sa vie comme + exerce la profession de) (dentiste +
             instituteur + plombier + statisticien + …)

Outre ces deux prédicats définitionnels, d'autres unités lexicales, d'une portée
distributionnelle moindre peuvent également caractériser les éléments de la
classe <profession> ; il peut s'agir :

    de verbes :
             balancer, bosser, candidater, casser, chasser, congédier, débarquer,
             débaucher, …

    d'adjectifs :
             à Dnum %, à mi-temps, à plein temps, à quart-temps, à temps partiel,
             à temps plein, …
    de noms :

             candidat, carrière, chômage, concours, congés, congés payés,
             débauchage, dégraissage, …

La classe <profession> est donc caractérisée par les différents prédicats évoqués
ci-dessus. Elle comporte des noms simples (e.g. abatteur, abouteur,

2
    Laboratoire de Linguistique Informatique
accessoiriste,   accompagnateur,     accordeur,   accoupleur,    accrocheur,
acheteur, …) et des noms composés (e.g. adjoint technique, adjudant chef,
affûteur braseur, affûteur outilleur, agent administratif, agent commercial,
agent d'accueil, agent d'administration, agent de bureau, …). Parmi ces
derniers, nous comptabilisons des séquences nominales présentant une étendue
beaucoup plus importante (e.g. accompagnateur de circuits locaux d'agence de
voyages).

La majorité des éléments de la classe <profession> sont des noms composés
complexes. Ils sont constitués d'une tête et d'une expansion. C'est de la
reconnaissance de ces deux composantes dont nous allons parler à présent.

1.2 Problèmes de délimitation au sein des noms de professions complexes
La délimitation entre une tête et son expansion est primordiale dans notre
optique, dans la mesure où une partie de notre système de repérage des noms de
professions repose sur cette dichotomie. En effet, l'examen de la classe
<profession> qui comporte près de 10 000 éléments pour l'instant, montre que
les têtes possibles des noms de profession complexes sont plutôt stables (environ
1000) alors que les expansions sont beaucoup plus diversifiées. C'est pourquoi,
nous avons fait l'hypothèse de détecter automatiquement des noms de profession
à partir de la liste de leur tête.3

Les notions de tête et d'expansion sont subordonnées à celle de construction
endocentrique (cf. Ducrot et Schaeffer 1995), la construction étant soit libre soit
partiellement figées ; ; ainsi les suites une pomme du jardin et une pomme d'api
sont l'une et l'autre des constructions endocentriques qui ont en commun pomme
comme tête avec, d'une part, du jardin comme expansion libre et, d'autre part,
d'api comme expansion figée.
Ce que nous entendons par tête d'une construction endocentrique diffère
sensiblement de la notion traditionnelle dans la mesure où, selon nous, les noms
de profession complexes comportent soit des noms têtes simples soit des noms
têtes composés. Pour ce qui est du premier cas, la plupart les situations sont
simples ; ainsi, il est clair que caissier est la tête dans chacune des suites
nominales suivantes :

          caissier d'hôtel
          caissier de bar
          caissier de brasserie
          caissier de bureau de théâtre
          etc.

3
  Remarquons que l'ensemble des têtes des noms est inclus dans l'ensemble des noms de
profession (la réciproque n'est pas vraie)
Parfois, la reconnaissance de la tête est plus difficile à établir. Considérons le
paradigme suivant :
             acheteur d'espace cinéma en publicité
             acheteur d'espace d'affichage en publicité
             acheteur d'espace presse en publicité

L'importance quantitative des séquences débutant par acheteur d'espace nous a
conduit à reconnaître ce syntagme comme un nom tête composé à côté du nom
tête simple acheteur. En revanche dans :

             affûteur d'outils
             affûteur d'outils d'usinage sur bois
              affûteur de fraises

le nombre d'occurrences d'affûteur d'outils était insuffisant pour reconnaître
cette séquence comme un nom tête composé4.
La mise en évidence des noms têtes composés est la plupart du temps simple à
établir sur une base quantitative. Ainsi, dans :
             professeur agrégé d'arabe
             professeur agrégé d'arts plastiques
             professeur agrégé d'histoire
             professeur agrégé en histoire
             etc.

la séquence professeur agrégé apparaît clairement comme la tête de ces noms de
profession. Toutefois, la reconnaissance des têtes composés est parfois
problématique. Ainsi, dans les exemples suivants :

             chef de rayon alimentation en hypermarché
             chef de rayon boucherie en hypermarché
             chef de rayon bricolage en hypermarché

deux analyses internes contradictoires des séquences nominales sont possibles.
Sur la base du critère quantitatif chef de rayon apparaît comme un nom tête,
toutefois les suites rayon alimentation, rayon boucherie et rayon bricolage
s'interprètent également comme des noms composés. La question est donc de
savoir si rayon se rattache au substantif situé à sa gauche ou celui qui se trouve à
sa droite. Une telle situation s'explique par le statut elliptique des suites
nominales ; ainsi, chef de rayon alimentation en hypermarché dériverait de chef
de rayon du rayon alimentation en hypermarché. C'est donc au substantif

4
    Ce que confirme une analyse de la relation entre la tête et son expansion.
gauche qu'est relié rayon et, de ce fait, le nom tête est bien chef de rayon. En
revanche, dans :
           chef du service du personnel
           chef du service intérieur des hôpitaux
           chef du service logistique
           etc.
il n'est pas possible de considérer chef du service comme une tête dans la mesure
où, par exemple, chef du service du personnel dériverait de chef de service du
service du personnel ; autrement dit service fait parti du syntagme service du
personnel. Il en est de même pour service intérieur et service logistique. C'est
donc le seul nom chef qui est la tête dans cette dernière série d'exemples.

Nous verrons dans la deuxième partie comment la mise en évidence des têtes
permet de détecter automatiquement des noms de profession. Nous montrerons
aussi comment l'analyse automatique des expansions peut également y
contribuer car leur examen montre que leur organisation est moins irrégulière
qu'il n'y paraît.

1.3. Régularités au sein des expansions des noms de profession
Deux types de faits de langues remarquables, les uns de nature grammaticale et
les autres de nature lexicale, caractérisent les expansions des noms de
profession.

Pour ce qui est des premiers, on observe que la détermination des différents
noms qui figurent dans les expansions est limitée, en ce qui concerne les
éléments antéposés, à le, la, les et l'article zéro. Par ailleurs, ce sont (par ordre
d'importance) les prépositions de, en sur et à qui, dans la majorité des cas,
relient ces différents substantifs et leur détermination5.
Une grande partie des expansions ont également des propriétés
syntactico-sémantiques spécifiques puisqu'il est possible de réduire les différents
substantifs ou chaînes de substantifs qui les constituent à un nombre limité de
classes d'objets ou de combinatoires de classes d'objets6.

2. Recherches à travers le Web


5
  Les prépositions de, en, de et à sont respectivement présentent dans 55%, 38%, 25% et 8%
des expansions (la présence de l'une de ces quatre prépositions n'étant pas exclusive de celle
de l'une des trois autres). Les autres prépositions correspondent à des pourcentages inférieurs
à 5 %.
6
  Pour l'instant, environ 50 % des noms de profession déjà répertoriés acceptent ce type de
description. Nous pensons améliorer ce chiffre d'une manière significative.
Nous exposons ici les différentes stratégies d'application des informations
linguistiques que nous venons de présenter afin d'optimiser la collecte des noms
de professions sur le Web. Nous présentons tout d'abord les contraintes liées aux
recherches sur le Web.

2.1 Requêtes possibles
L'exploration des documents disponibles sur le Web permet de tester la
pertinence et la complétude des descriptions linguistiques. Par Web, il faut
comprendre listes, base de données, textes, etc. Le Web est par définition très
mouvant, il est théoriquement et techniquement très difficile de s'en faire une
représentation précise et stable, nous utiliserons ici deux stratégies types :

     Exploration ciblée sur des sites spécialisés qui ont plus ou moins trait à la
      notion                  de                   profession                 (e.g.
      http://www.anpe.fr, http://www.pagesjaunes.fr, …)
     Accès indirect par moteur de recherche (ici Altavista7), pour effectuer une
      étude quantitative et analyser les 200 premiers documents recensés.
L'accès indirect est techniquement moins coûteux, mais limite les requêtes
possibles en termes de motifs (e.g. NEAR).
L'utilisation des différentes caractéristiques linguistiques est d'abord centrée sur
la détection lexicale. Des filtres lexico-syntaxiques interviennent
postérieurement afin d'éviter certaines configurations récurrentes non pertinentes
(e.g. profession de foi)

2.2 Détection des noms têtes
Le premier mode de recherche est essentiellement centré sur les propriétés de la
classe afin de déceler de nouvelles têtes. Il consiste à utiliser les prédicats
appropriés de la classe <professions> comme requête sur le Web et d'examiner
les résultats. Les prédicats définitionnels sont évidemment les plus opératoires
mais leur faible nombre d'occurrences limite leur portée. Les autres opérateurs
ne sont pas homogènes du point de vue des résultats obtenus. Certains génèrent
trop de bruits pour être directement exploitables (e.g. rechercher). D'autres
comme candidater ou recruter sont beaucoup plus productifs à condition de ne
retenir parmi les différentes constructions attachés à un prédicat donné les moins
bruyantes (e.g. être recruté comme). Le tableau ci-dessous rend compte de la
disparité entre les différents opérateurs :



7
    http://ww.altavista.com
                    Requête                          nombre de pages

                    emploi                                 500000

                    profession8                            130000

                    métier                                 33800

                    exercer la profession de                 379

                    Faire profession de                      60

                    Recrutement de                          5500

                    recruter comme                           98

                    recruter au poste de                      1

                    embaucher comme                          150

Ce type de requête nous permet, par exemple, d'intégrer dans la classe
<profession> des substantifs comme hot-liner, webmaster, massothérapeuthe…

2.3 Détection des noms de profession complexes
Le second mode de recherche s'appuie principalement sur la liste des noms têtes
et les caractéristiques des expansions. On peut le subdiviser en trois étapes
successives :
    la première étape consiste à identifier extraire duans un corpus tous les noms
     têtes de professions correspondant à des têtes et leur contexte droit;

    la seconde étape revient éliminer à matcher toutes les configurations droites
     des têtesafin d'éliminer matchant celles qui sont déjà listées ;

    lors de la dernière étape, on utilise des filtres s'appuyant sur les
     caractéristiques des expansions, d'une part, des bases de données où les noms
     français sont décrits en termes de classes d'objets est codée, d'autre part.

Les filtres s'appuient sur les propriétés remarquables (de nature grammaticale et
lexicale) des expansions que l'étude des noms de professions déjà listés a fait
apparaître. Nous indiquons ci-dessous quelques-uns des noms de profession
complexes que nous avons récupéré via Altavista et les configurations
lexico-grammaticales qui ont permis de les obtenir :


8
    900000 en cherchant dans les documents de toutes langues, et 910 "profession de foi"
       chef de projet multimédia,
        <PROFESS> JONC1 <SE&ACTI >9

       technicien de laboratoire polyvalent en biologie et biochimie
        <PROFESS> JONC1 <SE&ACTI > JONC2 <SE&ACTI>10

       technicien en maintenance automobile
        <PROFESS> JONC1 <OP&TECH> JONC1 <MO&TRAN>11

       chef de division du secteur produit pharmaceutique
        <PROFESS> JONC1 <DI&ADMI> JONC1 <PRODUITS>

D'après nos premières estimations, les deux modes de recherche que nous
venons d'évoquer devraient permettre une augmentation d'au moins 10 % du
nombre d'items de la classe <profession>.

3. Conclusion
Comme suites à ces travaux, nous envisageons tout d'abord d'améliorer l'analyse
des groupes nominaux complexes en vue, d'une part, de traiter les adjectifs dans
les expansions (e.g. agricole dans conseiller d'entreprise agricole) et, d'autre
part, d'éliminer les groupes nominaux libres qui génèrent du bruit (e.g. un
ingénieur de la boîte). Pour ce qui est de la détection, nous continuons à
rechercher des néologismes sur le Web pour alimenter la classe <profession>.
Par ailleurs, nous nous proposons d'élaborer une classification des pages Web
par calcul d'indices en fonction des éléments de la classe <profession> qui s'y
trouvent, une application éventuelle immédiate serait d'améliorer les moteurs de
recherche spécialisés dans la recherche d'emploi.

Références
Bourigault 93 "Analyse syntaxique locale pour le repérage de termes complexes
dans un texte",TAL 34-2, Paris.

Drouin 1998 "Reconnaissance et acquisition de la terminologie", BULAG 23,
Besancon : PUFC. $
Gross 1995 "Une sémantique nouvelle pour la traduction automatique : les
classes d'objets", La tribune des Industries de la Langue et de l'Information
électronique 17-18-19, Paris.

9
  <¨PROFESS> et <SE&ACTI > renvoient aux classes respectives des noms de profession, des noms de secteur d'activité. JONC1 renvoie à
un "joncteur" où sont précisés les combinaisons des prépositions et des déterminants les plus fréquents dans les expansions des noms de
profession complexes (cf. supra) ; l'absence de tous ses éléments grammaticaux est également pris en compte par JONC1.

10
     JONC2 est le second "joncteur" que nous avons utilisé ; il est constitué de la conjonction et suivie de JONC1.

11
     <OP&TECH> et <MO&TRAN> désignent respectivement les classes des noms d'opérations techniques et des noms de secteurs d'activité.
Le Pesant et Mathieu-Colas 1998, "Introduction aux classes d'objets", Langages
131, Paris : Larousse.
Mathieu-Colas 1998, "Illustration d'une classe d'objets : les voies de
communication", Langages 131, Paris : Larousse.

Ducrot et Schaeffer 1995, Nouveau dictionnaire encyclopédique des sciences du
langage, Paris :Seuil.
Senellart 1998 "Locating noun phrases with finite state transducers".
COLING-ACL‘98. Montréal.

Résumé
Nous montrons l'intérêt d'utiliser le Web comme corpus d'investigation pour
valider et enrichir des descriptions linguistiques de classes sémantiquement
homogènes. Nous nous intéressons ici à une classe de 10000 noms de
<profession>.

Abstract
We use the Web as a corpus to validate and extend linguistic descriptions of
lexical classes, that are homogeneous from a semantic point of view. We put the
emphasis, here, on a 10000-noun class : <profession>.

								
To top