Docstoc

expose_soutenance

Document Sample
expose_soutenance Powered By Docstoc
					ACCES PERSONNALISE A                                          UNIVERSITE DE VERSAILLES
DES MASSES DE DONNEES                                         SAINT-QUENTIN-EN-YVELINES




    Personnalisation de l’information : une
     approche de gestion de profils et de
          reformulation de requêtes

                        Soutenance de thèse de Doctorat

                                Dimitre Kostadinov


                            Versailles, le 19 Décembre 2007
             Accès classique à un système
                d’information multi sources
   Accès à un ensemble de sources de données
    distribuées, hétérogènes et autonomes
                                                  Comment résoudre le
                                                 problème de la surcharge
                                                       d’information ?
                                                 Est-ce que les données
                                                      sont récentes ?
                                                  Est- ce je peux lire les
                                               fichiers avec mon ordinateur
                  SELECT *                                    ?
                  FROM Publication
                  WHERE sujet = ‘JAVA’

                 Système d’Accès aux Données




19/12/2007                Dimitre Kostadinov                                  2
             Accès personnalisé à un système
                   d’information multi sources
   Accès à un ensemble de sources de données
    distribuées, hétérogènes et autonomes
                         JAVA: langage de programmation
                         Fraîcheur < 1 mois
                         Formats fichiers  {PDF, PS}



                    SELECT *
                    FROM Publication
                    WHERE sujet = ‘JAVA’

                    Système d’Accès aux Données




19/12/2007                    Dimitre Kostadinov          3
             Cadre du travail: Projet APMD
   Objectifs du projet APMD (2004-2007)
     –   modélisation et évolution des profils,
     –   exécution adaptative de requêtes,
     –   influence de la qualité sur la personnalisation,
     –   évaluation et la validation des approches proposées dans le projet.

   Partenaires
     –   PRiSM (Versailles)
     –   CLIPS-IMAG (Grenoble)
     –   IRISA (Lannion)
     –   IRIT (Toulouse)
     –   LINA (Nantes)
     –   LIRIS (Lyon)

   Prolongé par une collaboration avec Alcatel-Lucent …

19/12/2007                            Dimitre Kostadinov                       4
                                                                           Plan

   Contexte

   Contributions
     – Modélisation de l’utilisateur (définition de la notion de profil)
     – Exploitation du profil dans la reformulation de requêtes


   Evaluations

   Conclusions et perspectives


19/12/2007                          Dimitre Kostadinov                        5
          Partie 1
Modélisation de l’utilisateur
                                                          Modèle utilisateur ?
Référence (s)              Modèle utilisé                          Proposition
(Chomicki 02)              formules de préférences                 Opérateur Best
                                                                                                Centré sur
(Borzsonyi et al. 01)      clause Skyline                          Opérateur Skyline
                                                                                                 plusieurs notions
(Kießling 02)              opérateurs supportant des               Preference SQL
                           préférences
                                                                                                 dont les définitions
(Ciro et al. 04)           mots clés pondérés                      similarité entre profil
                                                                                                 sont floues
                                                                   et documents                   – Profil
(Sorensen et al. 95)       séquences de termes                     Filtrage des articles          – Contexte
                                                                   de Usenet News
(Cherniack et al. 03)      fonctions d'utilité                     Caches personnalisés
                                                                                                  – Préférences
(Koutrika et al. 04b),     préférences à la clause de Horn         enrichissement
(Acqua et al. 02),                                                 requêtes
(Gaasterland et al. 94)
                                                                                                Chaque application
(Koutrika et al. 04, 05)   ensemble de prédicats pondérés          Enrichissement de
                                                                                                 possède
                                                                   requêtes                       – Son propre
(Cranor et al. 03)         3 catégories d’attributs :              Sécurité des données             modèle
(P3P)                      démographiques, professionnelles,
                           de comportement
                                                                                                    utilisateur
(Amato et al. 99)          4 catégories de connaissances:          Accès à une librairie          – Sa propre
                           données personnelles, données           digitale                         approche
                           collectées, données de livraison,                                        d’accès
                           données de comportement
                                                                                                    personnalisé
19/12/2007                                                Dimitre Kostadinov                                        7
                                Notion de préférence
   Préférence
     – expressions permettant de hiérarchiser les concepts
       auxquels on s’intéresse


   Typologie des préférences
                                        Préférence
                                                         0..n         compose


                                                                                1..n

                 PréférenceSimple                                  PréférenceComposée



    Unitaire
                    Binaire                Ensembliste          Indépendante      Prioritaire



19/12/2007                          Dimitre Kostadinov                                          8
                                                      Exemples
   Préférences simples                  Préférences Composées
     – Unitaire : poids                     – indépendante 
       Film.genre=‘action’ 0.8                 (action >> drame) 
                                               (anglais >> français)
     – binaire : >>
       action >> drame                      – prioritaire &
                                              (action >> drame) &
     – Ensembliste : LOWEST                   (anglais >> français)
       LOWEST(prix)



19/12/2007                   Dimitre Kostadinov                        9
                  Dichotomie profil/contexte

   Profil
     – ensemble d’informations
       décrivant les centres                             Profil
       d’intérêt de l’utilisateur, plus
       un ensemble de préférences
                                                    Contextualisation

   Contexte
     – description de                                  Contexte
       l’environnement
       d’interaction entre
       l’utilisateur et le système

19/12/2007                     Dimitre Kostadinov                       10
          Meta modèle du profil utilisateur
                                             Profil
                                         IDprofil
                                         propriétaire
                                          1..n
                                          Dimension
                                         IDdimension
                           0..n          nom
                                  0..n                             < TypeDe

                                                                  < TypeDe
 SousDimension         Attribut
                                                                              DonnéesLivraison
IDsousDimension    IDattribut                                 < TypeDe
nom                nom                                   < TypeDe
                   typeValeur                     < TypeDe                    Qualité
   1..n
                   structureValeur
                                                                      Sécurité
                    1..n

                  ValeurAttribut                         DonnéesPersonnelles
                  IDvaleur
                  valeur
                                                 DomaineIntérêt

19/12/2007                        Dimitre Kostadinov                                        11
                                                               Domaine d’intérêt

                                                                               Contenu

                                                                                       1..1
                                                                               concerne

                                               DomaineIntérêt
                                                                               1..n



VecteurMotsCles                 Ontologie                    FormulesDisj                              Historique

                                     1..n                              1..n                                   1..n
       1..n
                         GrapheConceptuel                    ConjPrédicats                        ListeExemples

                                                                        1..n                           0..n   1..n
                  1..n     1..n                1..n
   Concept                                                      Prédicat                      Action
                          LienSém           Axiome                                                                   Exemple
        0..n
                         2..2                    1..1                             1..n
               entre                                                                                           0..n      1..1
                                                 Attribut         opérateur           Valeur



19/12/2007                                              Dimitre Kostadinov                                                      12
                                                                       Exemples
Exemple 1 : mots clés                         Exemple 2 : ontologie
Profil de Paul                                Profil de Paul
   Dim: Domaine d’Intérêt                     Dim: Domaine d’Intérêt
         (film, action, drame, Bruce                                          Film

          Willis, anglais)                                     Genre           Casting      Langue


                                                      action     drame       Bruce Willis   anglais

Exemple 3 : prédicats                         Exemple 4 : historique
Profil de Paul                                Profil de Paul
   Dim: Domaine d’Intérêt                        Dim: Domaine d’Intérêt
         Film.genre=‘action’                           Film                     Action
                                               Armageddon              vu annonce, téléchargé
         Film.genre=‘drame’
                                               Titanic                 recommandé à un ami
         Acteur.nom=‘Bruce Willis’
                                               Shrek                   vu annonce
         Film.langue=‘anglais’
19/12/2007                       Dimitre Kostadinov                                              13
                             Méta modèle de contexte

                                               Contexte

                                                        1..n
                                           DimensionContexte

                             TypeDe >
                                                                             < TypeDe
                                               TypeDe >


              Temporelle                            Spatiale                      Equipement


                                                       0..1 0..1
     Moment           Date     Mobile         Fixe
                                                                       Matériel                Logiciel



                                        Coordonné      Localité




                                                                    Rapport technique [Abbar et al. 07]
19/12/2007                                     Dimitre Kostadinov                                         14
                                                  Exemples

   Contexte Maison                       Contexte Bureau
     Temporelle                            Temporelle
          moment                                date
     Equipement                            Spatiale
          taille écran                          coordonnée GPS
          système                          Equipement
          bande passante                        taille écran
                                                bande passante




19/12/2007                 Dimitre Kostadinov                    15
              Liens entre les méta modèles

                                             Préférence
         TypeDe >                                                                       < TypeDe


                                                   ContextualiséSelon >
                     Profil                                                  Contexte

                  0..n     1..n                                           1..n     0..n




     Préférence   DéfiniSur >     Elément                         Elément < DéfiniSur     Préférence
      de Profil                    Profil                         Contexte                de Contexte
                                  ContextualiséSelon >
DéfiniSur >                                                                                 DéfiniSur >




19/12/2007                                  Dimitre Kostadinov                                      16
                                                         Exemple
                        Profil de Paul
Contexte Maison
  Temporelle               Données personnelles
       moment                     téléphone =
  Equipement                          01 11 11 11 11 si contexte Maison
       taille écran                   01 22 22 22 22 si contexte Bureau
       système
       bande passante      Domaine d’Intérêt
                                 {Film.genre=‘action’           0.9
                                  Film.genre=‘drame’            0.7
Contexte Bureau                  Acteur.nom=‘Bruce Willis’      0.7
  Temporelle                     Film.langue=‘anglais’ }        0.2
       date
  Spatiale                              si contexte Maison
       coordonnée GPS                 {Film.genre=‘dessin animé’ 0.9
  Equipement                           Film.genre=‘comédie’      0.3
       taille écran
       bande passante
                                       Film.langue=‘français’ }  0.8
                                        si contexte Bureau
19/12/2007                   Dimitre Kostadinov                           17
             Plateforme de gestion des méta
                                    données
   Implémente
     – Les méta modèles
     – Les opérations sur
       les méta modèles


   Composants
     – Gestionnaire de
       profils
     – Gestionnaire de
       contextes
     – Gestionnaire de
       préférences


19/12/2007                  Dimitre Kostadinov   18
                                                          Bilan

   Clarification des notions de profil et de contexte
     – approche multidimensionnelle


   Support à la définition des notions de profil et contexte
     – manuel ou automatique


   Ensemble d’opérations de manipulation
     – instanciation            – Validation
     – appariement              – Intégration
     – Importation              – Adaptation


19/12/2007                     Dimitre Kostadinov               19
                 Partie 2
Exploitation du profil utilisateur pour la
      reformulation de requêtes
                                                                                      Objectif
   Proposer une méthode de reformulation de
    requêtes qui tient compte de
     – la distribution de l’information
     – profil utilisateur

                 Pu


             Q
                                                                                       Réécritures
                                                                     Reformulation
                                                                     Reformulation
                      SCHEMA VIRTUEL                                                     enrichies
                                                                                     {Q’1, Q’2, …, Q’m}
         LIENS SEMANTIQUES




        SOURCE 1       SOURCE 2    SOURCE 3   SOURCE n


19/12/2007                                      Dimitre Kostadinov                                        21
                          Hypothèses de base
   Profil
     – ensemble de prédicats pondérés


   Requêtes
     – conjonctives du type SPJ


   Définition des sources
     – vues sur le schéma virtuel (LAV)

   Problèmes terminologiques résolus

19/12/2007                  Dimitre Kostadinov   22
                                                              Problématique
   Reformulation des requêtes utilisant le profil
     – quelle partie du profil est pertinente à ajouter à une requête ?
             • métrique de couverture
     – quelle partie du schéma virtuel est nécessaire pour couvrir le profil
       sélectionné ?
             • recherche d’un sous-ensemble de relations virtuelles et des chemins de
               jointures les reliant
     – quelles sources de données sont les plus appropriées pour la
       réécriture des requêtes ?
             • matching des attributs, identification de prédicats conflictuels, redondants


   Définition de benchmarks d’évaluation
     – à la compilation
     – à l’exécution

19/12/2007                               Dimitre Kostadinov                              23
    Insuffisance des techniques de base
   Réécriture (Halevy et al. 96), (Duschka et al. 97), (Halevy et
    al. 01), …
     – prend en compte l’aspect multi source (réécriture à travers des vues)
     – mais ne tient pas compte du profil utilisateur


   Enrichissement (Koutrika et al. 04, 05)
     – prend en compte le profil utilisateur (ajout de prédicats dans la
       requête)
     – mais ne tient pas compte des mappings multi sources
       (pas de réécriture)


    Les 2 techniques sont complémentaires

19/12/2007                         Dimitre Kostadinov                      24
 Première approche : composition des
                 techniques de base
   Enrichissement-réécriture R(E)
        Pu        Qu
                        Schéma
                                               {Schémas Sources}
                        Virtuel


                                 Q’u
             Enrichissement                          Réécriture             {Q’’u}



   Réécriture-enrichissement E(R)
                  Qu        {Schémas Sources} Pu



                                {Q’u}
               Réécriture                    Enrichissement        {Q’’u}

19/12/2007                              Dimitre Kostadinov                           25
    Limites des approches séquentielles

                 Approche R(E)                           Approche E(R)
 Avantages       + prend en compte tous les              + tient compte des définitions
                 prédicats du profil non                 des sources pour la sélection
                 conflictuels avec ceux de la            des prédicats du profil
                 requête                                  utilise uniquement des
                                                         prédicats pertinents

 Inconvénients   - peut utiliser des prédicats qui       - impossibilité d’exprimer
                    a) ne peuvent pas être réécrits      certains prédicats du profil sur
                    b) sont déjà satisfaits pas          les sources choisies
                 l’ensemble des définitions des
                 sources




19/12/2007                          Dimitre Kostadinov                                      26
        Deuxième approche : réécriture de
              requêtes guidée par le profil
   Idées directrices
     – confronter le profil utilisateur et le schéma virtuel
             • sous ensemble de prédicats
             • sous-schéma virtuel


     – sélectionner les relations virtuelles sur la base de
       préférence (taux de prédicats pertinents)
             • étendre la requête avec les relations choisies


     – faire une réécriture personnalisée
             • ne produire que les réécritures enrichissables


19/12/2007                            Dimitre Kostadinov        27
                                                            Principe général
                                    Schéma Virtuel

                      requête                            requête
                     utilisateur                         étendue
                                   Expansion de                            Identification des
                                     la requête                           sources pertinentes



                                                                                     sources
                                                                                    pertinentes
                                                     profil utilisateur


                                                        réécritures
                                   Enrichissement                          Combinaison des
                                        final                             sources pertinentes



                                         Schémas des sources de données

               requête
              utilisateur
             reformulée

19/12/2007                                     Dimitre Kostadinov                                 28
    Etape 1: Expansion de la requête
                                                   Qu
   Principe général
 Profil                                                            Schéma virtuel
                         Match
                                                                   R2
                                                                               R5
                                                             R1
                                                                         R4

                                                                   R3         R6




                         R4                                   R2

Q’u          Ajout à Q              Ordonnancement      R1
                         R3                                         R4

                                                             R3
                         R2


19/12/2007                    Dimitre Kostadinov                                   29
       Problématique de l’expansion de la
                                 requête
   Identification des relations sémantiquement liées à
    la requête

   Recherche des chemins de jointure entre la requête
    et les relations virtuelles

   Choix des chemins de jointure

   Minimisation du nombre de nouvelles relations

19/12/2007               Dimitre Kostadinov               30
                           Principe d’expansion
1.   Actualisation des poids des prédicats
2.   Choix des relations virtuelles
3.   Ajout des relations virtuelles à la requête




19/12/2007                   Dimitre Kostadinov    31
                                        Principe d’expansion
1.     Actualisation des poids des prédicats
      –      Prise en compte de la distance entre les relations de la requête et les
             autres relations virtuelles
              •   Fonction de la distance entre la requête et la relation sur laquelle est exprimé
                  le prédicat                                   EJ Rp
                                            nw( p,Qu ,Sv )         w( p)
2.     Choix des relations virtuelles                                      R4
3.     Ajout des relations virtuelles à la requête                                      0.32
                                                              R5
                                                                          R3.a=‘x’ 0.5      R8
                                                                          R3
     Hypothèse :  = 0.8
                                                                                   R7
 nw = 0.820.5 = 0.32                                           R6


                                                                     R1            R2

                                                                             Qu
19/12/2007                                 Dimitre Kostadinov                                    32
                                              Principe d’expansion
1.    Actualisation des poids des prédicats
2.    Choix des relations virtuelles
     –       somme des pertinences des relations choisies >  (seuil de la portée
             pertinente)
     –       pertinence d’une relation = couverture pondérée du profil utilisateur par les
             prédicats exprimés sur la relation
                     rel(P ,Q ,R )  
                                 u   u    j                                             R4   32%
                       j                                                                                0%
3.    Ajout des relations virtuelles à la requête                       3% R5
                                                                                                        R8
Objectif : Satisfaire au moins 90% du profil utilisateur                           20% R3          0%
       ( = 0.9)                                                                            R7
                                                                        5%   R6
         R1      R4        R3        R6       R5

         40%     32%       20%       5%       3%
                                92%                                                R1         R2    0%
                                                                             40%
                          R3, R4
 Il faut étendre Qu avec {R3, R4 }                                                      Qu
19/12/2007                                         Dimitre Kostadinov                                    33
                                     Principe d’expansion
1.   Actualisation des poids des prédicats
2.   Choix des relations virtuelles
3.   Ajout des relations virtuelles à la requête
     –       Minimiser le nombre de nouvelles relations (Steiner Tree Problem (Hwang
             et al. 1992))
     –       Utiliser une heuristique (Minimum Cost Paths Heuristic (Takahashi et al.
             1980))
                                                                             R4   32%

                         R3, R4
Il faut étendre Qu avec {R3, R4 }                            3% R5
                                                                                        R8
                                                                        20% R3
1ere itération :               2e itération:
Plus courts chemins :                                                              R7
                               Plus courts chemins :         5%   R6
R1-R6-R3         5%            R3-R4
R2-R7-R3         0%
R2-R8-R4         0%            Ajout de R4
                                                                        R1         R2
Ajout de R3                                                       40%
                                                                             Qu
19/12/2007                              Dimitre Kostadinov                              34
         Etape 2: identification des sources
                                  pertinentes
                                    Schéma Virtuel

                      requête                            requête
                     utilisateur                         étendue
                                   Expansion de                            Identification des
                                     la requête                           sources pertinentes



                                                                                     sources
                                                                                    pertinentes
                                                     profil utilisateur


                                                        réécritures
                                   Enrichissement                          Combination des
                                        final                             sources pertinentes



                                         Schémas des sources de données

               requête
              utilisateur
             reformulée

19/12/2007                                     Dimitre Kostadinov                                 35
                                                      Objectif

   Trouver les sources permettant de calculer les
    résultats de la requête
     – sources contributives pour la réécriture de la requête


   Choisir les sources les plus pertinentes
     – enrichissables par les prédicats du profil utilisateur




19/12/2007                    Dimitre Kostadinov                36
                            Problèmes à résoudre
   Trouver les sources contributives
     – contenant des données de même nature que celles
       recherchées par la requête
     – satisfaisant les prédicats de la requête
             • Sélections
             • Jointures


   Elagage des sources non pertinentes
     – introduction d’une métrique de pénalité



19/12/2007                  Dimitre Kostadinov           37
                     Principe de l’identification des
                               sources pertinentes
   Recherche des sources contributives pour la
    réécriture de la requête
             • construction d’un ensemble de descripteurs de sources (MCDs)
               (type MiniCon Halevy et al. 2001)


   Filtrage des sources
     – pénalité d’une source (MCD) > seuil de pénalité
             • Couverture pondérée du profil par les prédicats exclus par la
               source
                – Conflictuels avec la définition de la sources
                – Inexprimables sur la source


19/12/2007                              Dimitre Kostadinov                     38
    Exemple d’identification des sources
                              pertinentes
Q’u(idV, prix, lieu_depart, moyen, comfort) :-
         (1) voyage(idV, prix, lieu_depart, lieu_arrivee, nbre_jours, idT, idH),
         (2) transport(idT, moyen, type_trajet, comfort),
         (3) hotel(idH, nbre_etoiles, nom, region, lieu_depart, idR)
                         lieu_arrivee='Madrid.
                                                     Profil utilisateur Pu
                                                     { VOYAGE.nbre_jours>7               1.0 (a)
                                                       VOYAGE.lieu_depart=’Toulouse’     0.8 (b)
                                                       TRANSPORT.moyen='avion’           0.5 (c)
                                                       HOTEL.nbre_etoiles>3              0.4 (d)
  Source contributive pour                ?            TRANSPORT.comfort>2               0.4 (e)
    la relation VOYAGE                                 VOYAGE.lieu_depart = ‘Paris’      0.2 (f)
                                                       HOTEL.region=‘centre ville’       0.2 (g)
                                                       RESTO.catégorie=‘gastronomique’   0.1 (h) }

ParisVacances(idV, prix, lieu_depart, lieu_arrivee, idT):-
        VOYAGE(idV, prix, nbre_jours, lieu_depart, lieu_arrivée, idT, idH),
        lieu_depart = ‘Paris’.
                                              Pénalité(ParisVacances) = CP(Pu, {a, b}) = 0.43
19/12/2007                                       Dimitre Kostadinov                              39
                       Etape 3: Combinaison des
                                   descripteurs
                                    Schéma Virtuel

                      requête                            requête
                     utilisateur                         étendue
                                   Expansion de                            Identification des
                                     la requête                           sources pertinentes



                                                                                     sources
                                                                                    pertinentes
                                                     profil utilisateur


                                                        réécritures
                                   Enrichissement                          Combination des
                                        final                             sources pertinentes



                                         Schémas des sources de données

               requête
              utilisateur
             reformulée

19/12/2007                                     Dimitre Kostadinov                                 40
    Problématique de la combinaison de
                               sources

   Problème combinatoire

   Compatibilité des sources (MCDs)

   Pertinence des réécritures par rapport au contenu
    du profil utilisateur




19/12/2007               Dimitre Kostadinov             41
                                                                               Solution proposée
       Utiliser un algorithme par niveaux (Apriori (Agrawal et al. 94))
          – Élaguer les combinaisons de MCDs ayant une grande pénalité
          – La pénalité est monotone          Relations de la requête étendue :
                                              { VOYAGE, TRANSPORT, HOTEL } Seuil de pénalité = 0.5
 ID            Source       Contributive pour
 a         HOTELSDUMONDE                  Hotel
                                                                                  Redondantes : ab, ad, bc, bd, ef, eg, fg
 b         PARISVACANCES                  Voyage,Hotel
 c         LYONVACANCES                   Voyage
                                                                                  Pénalité > seuil : be, cd, ce
 d         LYONVACANCES                   Hotel                                   Réécritures : bf, bg , acf, acg
 e         SNCF                           Transport                                       0.45                             0.45
    f      TRANSPORTAERIEN                Transport
                                                                                         acf                               acg
 g         VOYAGERPARTOUT                 Transport
        0.45           0.1   0.0    0.0                  0.55    0.45   0.45     0.54   0.55     0.45 0.45   0.18   0.08    0.08

ab ac ad ae af ag bc bd be bf bg cd ce cf cg de df dg ef eg fg


               0   a         0.45    b                0.45   c            0.08    d              0.1   e            0.0     f      0.0   g
19/12/2007                                                       Dimitre Kostadinov                                                      42
                                      Etapes de l’algorithme
                                    Schéma Virtuel

                      requête                            requête
                     utilisateur                         étendue
                                   Expansion de                            Identification des
                                     la requête                           sources pertinentes



                                                                                     sources
                                                                                    pertinentes
                                                     profil utilisateur


                                                        réécritures
                                   Enrichissement                          Combination des
                                        final                             sources pertinentes



                                         Schémas des sources de données

               requête
              utilisateur
             reformulée

19/12/2007                                     Dimitre Kostadinov                                 43
                                        Enrichissement final
   Objectif
     – Ajouter les prédicats du profil aux réécritures candidates


   Etape préparé par les étapes précédentes
     – Connaissance des prédicats exclus
             • déduction des prédicats à utiliser
     – Connaissance des définitions des sources
             • Identification des prédicats déjà satisfaits par les sources


   Principe
     – Ajout de la conjonction des prédicats du profil à la requête


19/12/2007                               Dimitre Kostadinov                   44
         Exemple d’enrichissement final
                                           Profil utilisateur
      Conflictuels avec Qu                 { VOYAGE.nbre_jours>7                  1.0 (a)
                                             VOYAGE.lieu_depart=’Toulouse’        0.8 (b)
  Exclus par les sources (pénalité)          TRANSPORT.moyen='avion’              0.5 (c)
                                             HOTEL.nbre_etoiles>3                 0.4 (d)
               A ajouter                     TRANSPORT.comfort>2                  0.4 (e)
                                             VOYAGE.lieu_depart = ‘Paris’         0.2 (f)
   Déjà satisfaits par les sources
                                             HOTEL.region=‘centre ville’          0.2 (g)
  Pas considérés lors de l’expansion         RESTO.catégorie=‘gastronomique’      0.1 (h) }


RW(idV, prix, lieu_depart, moyen, comfort):-
  ParisVacances(idV, prix, lieu_depart, lieu_arrivee,
                                                            TransportAerien(idT, comfort),
          nbre_jours, moyen, nom, nbre_etoiles, idT),
                                                                    moyen = ‘avion’
          lieu_depart = ‘Paris’

    lieu_arrivee='Madrid‘, nbre_jours=4   , nbre_etoiles>3, comfort>2

19/12/2007                             Dimitre Kostadinov                                 45
                                                                           Plan

   Contexte

   Contributions
     – Modélisation de l’utilisateur (définition de la notion de profil)
     – Exploitation du profil dans la reformulation de requêtes


   Evaluations

   Conclusions et perspectives


19/12/2007                          Dimitre Kostadinov                        46
                Evaluation des approches de
                   reformulation de requêtes

   Proposition d’un benchmark
     – Construction d’une plateforme de données (Peralta 2007)
     – Dérivation d’un benchmark à partir de la plateforme


   Définition de métriques d’évaluation
     – Niveau compilation des requêtes
     – Niveau exécution des requêtes



19/12/2007                  Dimitre Kostadinov               47
                                                   Plateforme des tests
   Principe de construction


                Extraction                           Schéma cible
                                   Nettoyage et
Données
 IMDb
                                  réconciliation                        Génération de       Profils
                                   des données           BD              requêtes et       Requêtes
                                                      intégrée            de profils     Bons résultats
                Extraction
Données
MovieLens
   Caractéristiques
          Nombre de tables dans la BD intégrée                 52
          Nombre de films                                    3 881
          Nombre d’évaluations de films                   1 000 194
                                                                              + référentielde résultats
          Nombre d’utilisateurs                              6 040
                                                                                pertinents pour chaque
          Nombre de requêtes générées                        6 041
                                                                                couple (profil, requête)
          Nombre de profils générés                        120 800
19/12/2007                                         Dimitre Kostadinov                                      48
                                             Benchmark des tests
   Etapes de construction du benchmark
                                                                                    Schéma cible
                      Schéma virtuel                          Simulation
                                                                  du                     BD
             Requêtes de médiation
                                                           système distribué          intégrée
                               Sources
                                                               Choix des
                                                              paramètres
                           Profils et                                                  Profils
                           Requêtes                       Choix des requêtes
                                                            et des profils            Requêtes
                            retenus                                                 Bons résultats


   Caractéristiques
 Schéma virtuel                         49 relations                                                 Système
 Sources                                52 dont 23 contiennent des prédicats de sélection            distribué
 Échantillon de requêtes                13 requêtes
 Échantillon de profils                 15 profils
 Valeur du seuil de pénalité            De 0 à 0.5 pour portée pertinente = 0.5
 Valeur de la portée pertinente         De 0.1 à 0.7 pour seuil de pénalité = 0.3

19/12/2007                                           Dimitre Kostadinov                                      49
                               Métriques d’évaluation
   Niveau compilation
     – Couverture des prédicats du profil
             • Couverture pondérée
     – Temps de réponse de la reformulation


   Niveau exécution
     – Rappel
             • nombre de résultats pertinents obtenus / nombre total de résultats
               pertinents
     – Précision
             • nombre de résultats pertinents obtenus / nombre total de résultats
               obtenus

19/12/2007                            Dimitre Kostadinov                       50
                                                          Résultats des tests au niveau
                                                                            compilation
   Couverture du profil utilisateur                                                                          R(E)
                                              Profils 6 prédicats ; requêtes 3 relations                                                                              Profils 6 prédicats ; requêtes 5 relations

 R/P                                90%
                                    80%
                                                                                                                                                          70%
         couverture du profil




                                                                                                                                couverture du profil
                                                                                                                                                          60%
                                    70%
                                    60%                                                                                                                   50%
                                    50%                                                                                                                   40%
                                    40%                                                                                                                   30%
                                    30%
                                                                                                                                                          20%
                                    20%
                                    10%
                                                                                                                                                          10%

                                     0%                                                                                                                    0%
                                              0.1       0.2       0.3        0.4         0.5        0.6       0.7                                                 0.1        0.2      0.3        0.4       0.5       0.6   0.7
                                                                        relevant scope                                  E(R)                                                       seuil de la portée pertinente

                                                                    R/P       R(E)       E(R)                                                                                              R/P    R(E)      E(R)




   Temps de réponse
                                                     Temps de reformulation d'une requête                                                                               Profils 6 predicats ; requêtes 3 relations

                                    80                                                                                                                    12




                                                                                                                               temps de réponse en sec.
         temps de réponse en sec.




                                    70                                                                                                                    10
                                    60
                                                                                                                                                          8
                                    50
                                                                                                                                                          6
                                    40
                                    30                                                                                                                    4

                                    20                                                                                                                    2
                                    10
                                                                                                                                                          0
                                    0                                                                                                                           0.1         0.2      0.3         0.4       0.5       0.6    0.7
                                          1         2         3     4         5      6          7         8         9                                                              seuil de la portée pertinente
                                                    nombre de relations dans la requête à réécrire
                                                                                                                                                                                           R/P    R(E)     E(R)



19/12/2007                                                                                            Dimitre Kostadinov                                                                                                          51
                 Résultats des tests au niveau
                                     exécution
                              Intervalle de Rappel en %                  R/P            R(E)          E(R)
      Rappel                 [50, 60)                                  2,3%
                              [60, 70)                                  10,4%
                              [70, 80)                                  11,6%           0,4%
                              [80, 90)                                  56,8%           0,4%
                              [90, 100)                                 8,5%            52,5%         5,0%
                              100                                       10,4%           46,7%         95,0%

                              Gain de précision par rapport à MiniCon            R/P           R(E)     E(R)

      Précision              [8, 10)                                           2,3%
                              [6, 8)                                            7,3%
Approche     Pourcentage de
              cas où elle a   [4, 6)                                            11,2%
               obtenu la
                              [2, 4)                                            25,1%
               meilleure
               précision      [0, 2)                                            22,8%       29,0%      6,9%
R/P              69,5 %       0                                                 0,8%        34,0%      88,0%
R(E)             21,2 %       (0,-2]                                            20,8%       37,1%      5,0%
E(R)             19,3 %       (-2, -4]                                          7,3%
MiniCon          19,7 %       (-4, -6]                                          2,3%

19/12/2007                                    Dimitre Kostadinov                                             52
                  Position par rapport aux travaux
                                         similaires
   Enrichissement de requêtes (Koutrika et al. 04, 05)
     – calcul de préférences implicites (expansion)
     – travail au niveau des prédicats
     – pas de distribution de l’information

   Réécriture de requêtes
     – algorithme MiniCon (Halevy et al. 01)
             • recherche de toutes les réécritures candidates possibles
             • pas d’expansion de la requête
             • pas de prise en compte du profil utilisateur
     – choix des sources à base de critères de qualité (Naumann et al. 98)
             • filtrage de sources à base de facteurs de qualité
             • pas d’expansion de la requête
     – calcul des top K chemins de navigation entre sources (Vidal et al. 06)
             • chaque source est assimilée à un concept
             • PB : trouver un chemin d’une source à une autre

19/12/2007                                  Dimitre Kostadinov                  53
                                                                           Plan

   Contexte

   Contributions
     – Modélisation de l’utilisateur (définition de la notion de profil)
     – Exploitation du profil dans la reformulation de requêtes


   Evaluations

   Conclusions et perspectives


19/12/2007                          Dimitre Kostadinov                        54
                                                       Conclusion
   Modélisation des connaissances décrivant l’utilisateur
     – Méta modèles de profil, contexte et préférences
     – Gestionnaire des méta modèles


   Exploitation du profil utilisateur pour la reformulation de
    requêtes
     – Définition et analyse de deux approches séquentielles
     – Algorithme de réécriture guidé par le profil utilisateur


   Evaluation des approches de reformulation de requêtes
     – Niveau compilation
     – Niveau exécution
19/12/2007                        Dimitre Kostadinov              55
                                                       Perspectives
   Calcul d’autres résultats que ceux de la requête initiale
     – Relâcher les prédicats de la requête initiale


   Faire un enrichissement au niveau des sources
     – sources multi relations


   Prise en compte d’autres dimensions du profil
     – choix des sources en fonction de la qualité


   Prise en compte d’autres types de préférences
     – Préférences sous forme d’ordres partiels


19/12/2007                        Dimitre Kostadinov              56
             Questions ?




19/12/2007     Dimitre Kostadinov   57

				
DOCUMENT INFO