Reconstruction d'Objets en XML par Approche Statistico

Document Sample
Reconstruction d'Objets en XML par Approche Statistico Powered By Docstoc
					                      Reconstruction d’objets en XML
                    par approche statistico-structurelle
                            pour l’interprétation
                         de documents techniques



                                  Delalandre Mathieu




Journée Doctorant PSI                                      le 04/06/2002
                        Sommaire

        Introduction
        Présentation du sujet
        Présentation des travaux
        Conclusions & Perspectives




Journée Doctorant PSI                 le 04/06/2002
                        Sommaire

        Introduction
        Présentation du sujet
        Présentation des travaux
        Conclusions & Perspectives




Journée Doctorant PSI                 le 04/06/2002
                        Introduction

 Avancement
       Première année de thèse dans la continuité du
        stage de DEA
 Directeurs de thèse
       Eric Trupin (PSI université Rouen)
       Jacques Labiche (PSI université Rouen)
       Jean-Marc Ogier (L3I université La Rochelle)


Journée Doctorant PSI                              le 04/06/2002
                          Introduction
  Collaboration doctorant et maîtres de conférence
        Pierre Héroux, Sébastien Adam, Youssouf Saidali
  Contexte industriel projet Doc-Mining (RNTL)
          FT R&D Lannion
          Laboratoire L3I La Rochelle
          Département informatique de l’université de Friboug
          Équipe ISA de l’INRIA Lorraine
  Sites de thèse
        http://mathieu.delalandre.free.fr/
        http://site.voila.fr/roxml/

Journée Doctorant PSI                                        le 04/06/2002
                        Sommaire

        Introduction
        Présentation du sujet
        Présentation des travaux
        Conclusion & Perspectives




Journée Doctorant PSI                le 04/06/2002
                        Présentation du sujet

  Système d’Interprétation « SI » (1)

                                          Système
                                       d’interprétation   Reconstruction des
                                         ‘adaptable’        résultats de la
                                                           reconnaissance
                                       de documents
                                         techniques

  Documents non-structurés (images)
   et semi-structurés (PDF, DXF, PS)


Journée Doctorant PSI                                                   le 04/06/2002
                        Présentation du sujet

  SI (2)
                                    Commande
                         Base de    -Interface
                        scénarios   -Pilotage de chaîne
                                    -SMA

                                        Chaîne de
                                     Reconnaissance
                        Base de
                                    De Formes « RDF »
                        modèles
                                         statistico
                                        structurelle
Journée Doctorant PSI                                     le 04/06/2002
                        Présentation du sujet

  Approche statistico-structurelle (1)

                                       Primitives :
                                       arc,courbe,      Rapports :
                                         pattern       connexion, di
        total_angle                                  stance, etc…
   var iance_proportion
                       
   var iance_angle                           Primitives Rapports
                                             vectorielles angulaires
      Angle _ moyen 
Modèle de type statistique Modèle de type structurel
Journée Doctorant PSI                                          le 04/06/2002
                        Présentation du sujet

  Approche statistico-structurelle (2)
        Approche statistique
             Plus robuste aux bruits, meilleurs
              résultats de reconnaissance
             ‘Plus facile’ de mise en oeuvre
             Inapplicable dans les cas connectés
        Approche structurelle
             Seule approche pour détecter les
              objets composites, ou connectés
             Sensible aux bruits
             Approche NP complexe

Journée Doctorant PSI                               le 04/06/2002
                         Présentation du sujet

  Approche statistico-structurelle (3)
    Chaîne de TI et EM                               Chaîne RDF

                        Extraction                     Classifieurs
                        de Modèle                      statistiques
                           (EM)
   Près-                statistique
Traitement                            Optimisation    Reconstruction    Fusion
de l’Image                                             de modèles         de
    (TI)                                                               données
                        Extraction
                        de Modèle
                           (EM)                        Classifieurs
                        structurel                     structurels
Journée Doctorant PSI                                                    le 04/06/2002
                        Présentation du sujet

  XML (1)
        Présentation XML
             eXtensible Markup Language
             Norme du W3C
             Langage de description de données
                  Documents électroniques (statiques et dynamiques)
                  Flots de données (Communications entre applications, BDD)




Journée Doctorant PSI                                                  le 04/06/2002
                        Présentation du sujet

  XML (2)
        Présentation XML           XML :
                                    Données


      HTML :
      Données            Document   DTD :
      Style                         Structure &   Document
                                    types de
                                    données

                                    CSS :
                                    Style




Journée Doctorant PSI                                        le 04/06/2002
                        Présentation du sujet

  XML (3)
        Présentation XML
             Meta-langage :
                    SVG            Vecteurs
                    XGMML          Graphes
                    MathML         Mathématiques
                    DAML-OIL       Ontologies
             Langages de traitement
                  Langage de requêtes                 XML-QL
                  Langage transformation de données   XSLT

Journée Doctorant PSI                                           le 04/06/2002
                            Présentation du sujet

       XML (4)
             XML en interprétation de documents
                  C’est un outil informatique, il apporte :
                 1. Conversion de formats
                           Interne au système :    Interfaçage entre outils
                           Externe au système :    ‘Export’ tous formats (format pivot)
                 2. Permet de structurer et de représenter les résultats de la
                    reconnaissance (XML & DTD, SVG)
                 3. Contrôle des modèles de représentation des formes
                    (XSLT)
                           Sélection de primitives
                           Choix de modélisation du graphe

Journée Doctorant PSI                                                              le 04/06/2002
                        Présentation du sujet

       Conclusions (1)
             Les approches statistique et structurelle sont
              nécessaires et complémentaires pour
              l’interprétation de documents techniques dans
              les cas connectés




Journée Doctorant PSI                                   le 04/06/2002
                            Présentation du sujet

       Conclusions (2)
             Pourquoi XML : Système de RDF = Première brique
              d’un SI, il faut prendre en compte son exploitation
              dans le SI, XML s’impose :
            1. Représentation des résultats de la reconnaissance (DTD et
               SVG)
            2. Contrôle des modèles (XSLT)
                       La qualité de la RDF est fonction
                           de l’efficacité de l’étape d’extraction de modèles,
                           de l’efficacité de l’étape de classification,
                           de la qualité du modèle de représentation pour une forme donnée dans
                            un contexte donnée


Journée Doctorant PSI                                                                    le 04/06/2002
                        Sommaire

        Introduction
        Présentation du sujet
        Présentation des travaux
        Conclusions & Perspectives




Journée Doctorant PSI                 le 04/06/2002
                    Présentation des travaux

  Introduction (1)
        Partie 1 :                     Commande
         Système de RDF      Base de    -Interface
         statistico         scénarios   -Pilotage de chaîne
         structurel &                   -SMA
         l’interface XML
         avec le SI
        Partie 2 : Base de                 Chaîne de
         modèles             Base de            RDF
         commune au          modèles          statistico
         système de RDF                     structurelle
Journée Doctorant PSI                                      le 04/06/2002
                    Présentation des travaux

  Introduction (2)
    Chaîne de TI et EM                               Chaîne RDF

                                                       Classifieurs
                           EM                          statistiques
                        statistique

                                      Optimisation    Reconstruction    Fusion
  Près-TI                                              de modèles         de
                                                                       données
                           EM
                        structurel                     Classifieurs
                                                       structurels
Journée Doctorant PSI                                                    le 04/06/2002
                    Présentation des travaux

  Introduction (3)
        Thématique une (T1) : Reconnaissance
         statistico-structurelle de symboles
        Thématique deux (T2) : Bibliothèque de
         traitements pour la RDF statistico-structurelle
        Thématique trois (T3) : Extraction de modèle
         structurel à base d’objets complexes



Journée Doctorant PSI                                 le 04/06/2002
                    Présentation des travaux

  T1 : Reconnaissance statistico-structurelle de
   symboles (1)
        Stage de DEA Travaux de thèse
        Deux articles
             SSPR (accepté)
             CIFED (en cours de soumission)
        Collaborations
             Travaux de thèse de S.Adam et P.Héroux
             Projet étudiants (Maîtrise EEA)
             Stage de DEA (Stéphane Nicolas)


Journée Doctorant PSI                                  le 04/06/2002
                    Présentation des travaux

  T1 : Reconnaissance statistico-structurelle de
   symboles (2)




Journée Doctorant PSI                          le 04/06/2002
                    Présentation des travaux

  T1 : Reconnaissance statistico-structurelle de
   symboles (3)
        Perspectives (court terme)




Journée Doctorant PSI                          le 04/06/2002
                    Présentation des travaux

  T2 : Bibliothèque de traitements pour la RDF
   statistico-structurelle (1)
        Travaux de thèse
        Collaborations
             Projets étudiants (DESS GIE)




Journée Doctorant PSI                          le 04/06/2002
                    Présentation des travaux

  T2 : Bibliothèque de traitements pour la RDF
   statistico-structurelle (2)
        Regroupement d’outils du laboratoire PSI
             Bibliothèque d’outils de traitement d’images
                  PSI Image Processing Library (psi.ipl)
             Bibliothèque d’outils pour la classification
                  PSI Classification Tool Library (psi.ctl)
             Bibliothèque d’interfaces dédiées au document
                  PSI Document Interface Library (psi.dil)


Journée Doctorant PSI                                          le 04/06/2002
                    Présentation des travaux

  T2 : Bibliothèque de traitements pour la RDF
   statistico-structurelle (3)
        Quelques caractéristiques :
             Écrite et interfaçable en Java/C-C++
             Mécanisme des librairies dynamiques
             Portable Windows/Linux
             Documentée à la JavaDoc
             Flot XML et dérivé (SVG,XGMML)
             JAI, LibTIFF, STL

Journée Doctorant PSI                                le 04/06/2002
                    Présentation des travaux

  T2 : Bibliothèque de traitements pour la RDF
   statistico-structurelle (4)
        Perspectives (moyen terme)
             Réflexion conjointe sur les modèles en terme de:
                  Traitements
                  Scénarios
                  Représentation des formes
             Comparaison avec les bibliothèques existantes sur
              Internet


Journée Doctorant PSI                                        le 04/06/2002
                    Présentation des travaux

  T3 : Extraction de modèle structurel à base d’objets
   complexes (1)
        Stage de DEA et Travaux de thèse
        Collaborations
               Travaux de DEA de A.Lassaulzais & S.Adam
               Projets étudiants (Maîtrise EEA et IUP2)
               Voyage GDR-ISIS La Rochelle
               Collaborations futures
                  Xavier Hilaire « ISA » (vectorisation robuste stable et précise)
                  Philippe Dosh « ISA » (signatures vectorielles)



Journée Doctorant PSI                                                                 le 04/06/2002
                    Présentation des travaux

 T3 : Extraction de modèle structurel à base
  d’objets complexes (2)




Journée Doctorant PSI                           le 04/06/2002
                        Présentation du sujet
       T3 : Extraction de modèle structurel à base d’objets
        complexes (3)
               Problèmes de complexité, solutions envisagées :
                  Pas de ‘tout structurel’ (applications simples, exploitation
                   l’approche structurelle en émission-validation d’hypothèses)
                  Exploitation de primitives complexes (arcs, courbes, patterns)
                    isomorphisme à base d’objets complexes
                  Contrôle du modèle = Restriction du graphe à un modèle
                   exploitable
               Problèmes de sensibilité aux bruits, solutions
                envisagées :
                   isomorphisme inexact, tolérance dans l’appariement

Journée Doctorant PSI                                                      le 04/06/2002
                    Présentation des travaux
  T3 : Extraction de modèle structurel à base d’objets
   complexes (4)
             Perspectives (court terme)
                  Méthodes de réduction unitaire
                         Détection de contours
                         Squelettisation Taconnet, Dibaja, suivi de traits
                  Primitives
                         Vecteurs : Polygonisation la corde & Merge, Wall & Danielson,
                          degré intériorité
                         Arc de cercle :
                         Courbes : Approximation par polynômes de Bézier
                  Détection des nœuds par reconstruction
                  Correction du modèle et calcul d’attributs


Journée Doctorant PSI                                                                     le 04/06/2002
                    Présentation des travaux

  T3 : Extraction de modèle structurel à base
   d’objets complexes (5)
        Perspectives (court terme)
             Tolérance dans l’appariement de graphe
             Isomorphisme de sous-graphes
             Isomorphisme à base d’objets complexes




Journée Doctorant PSI                                  le 04/06/2002
                        Sommaire

        Introduction
        Présentation du sujet
        Présentation des travaux
        Conclusions & Perspectives




Journée Doctorant PSI                 le 04/06/2002
                        Conclusions et
                         Perspectives
  Conclusions (1)
        Intérêt de l’approche statisitico-structurelle
             Pour les cas connectés
        Intérêt d’XML dans un système d’interprétation
         de documents
             Manipulation de données  Manipulation des
              modèles de représentation




Journée Doctorant PSI                                      le 04/06/2002
                        Conclusions et
                         Perspectives
  Conclusions (2)
        Limite de l’approche structurelle
             Extraction de primitives complexes
             Pas de ‘tout structurel’




Journée Doctorant PSI                              le 04/06/2002
                        Conclusions et
                         Perspectives
  Perspectives (1)
        Court terme
             Finalisation de la chaîne structurelle (EM et
              classifieur) afin d’obtenir un système de RDF
              statistico-structurel ‘suffisant’
             Exploitation depuis un SI
        Moyen terme
             Réflexion sur les modèles, constitution d’une bases
              de modèles de représentation et de scénarios
              commune au système

Journée Doctorant PSI                                         le 04/06/2002
                        Conclusions et
                         Perspectives
  Perspectives (2)
        Long terme
             Extension du système de RDF (TI, EM, Classifieurs)
             Exploitation depuis un SMA et confrontation avec un
              système de pilotage ‘classique




Journée Doctorant PSI                                        le 04/06/2002
                         Conclusions et
                          Perspectives
  Merci de votre attention
        Sites de thèse
             http://mathieu.delalandre.free.fr/
             http://site.voila.fr/roxml/




Journée Doctorant PSI                              le 04/06/2002