Le cœur du projet objectifs by bmd18385

VIEWS: 0 PAGES: 27

									          Le cœur du projet : objectifs
• L’élaboration d’une base de corpus (principalement oraux)
  regroupant des données de langues de différentes natures

   – Une approche pluridisciplinaire

   – Une normalisation pour l'encodage et la
     description de corpus de langue (métadonnées)
       Exploitation, conservation,
                diffusion

• Nécessité de normaliser :
  – pourquoi ?
  Besoins de partager, diffuser et rechercher/retrouver

  – Comment ?
  XML / Dublin Core / OAI / OLAC
     Normalisation des données
• XML: Format de représentation

• Dublin Core: Norme de métadonnées

• OAI: Concept d’interopérabilité

• OLAC: Standard proposé par des linguistes
Normalisation des corpus oraux

                                      OAI
Dublin Core                       Open Archive
                                    Initiative




                    OLAC
               Open Language
              Archive Community
                                                 XML
                     XML
• Langage à balises qui permet d'annoter et de
  structurer une ressource.
  – libre de droit, multi-plateforme, échangeable

• par ex:
• <balise attribut= ''valeur''>donnée</balise>

  <titre lang=''fr''>norma…</titre>
                 Dublin Core
• Norme de métadonnées.

• 15 éléments simples mais efficaces pour
  décrire les ressources :
  – Title, (creator), subject, description, publisher,
    contributor, date, type, format, identifier,
    language, relation, coverage, rights, source.
 Eléments de métadonnées Dublin Core
1.   Title : nom donné à la ressource, (celui par lequel elle est connue
     officiellement)
2.   Subject : sujet du contenu de la ressource, décrit par un ensemble de mots
     clés, de phrases ou d’un code de classification.
3.   Description : une description du contenu de la ressource. Peut contenir un
     résumé, une table des matières, une référence à une représentation
     graphique du contenu ou un texte libre sur le contenu.
4.   Publisher : une entité responsable de la diffusion de la ressource, dans sa
     forme actuelle. Pour nous, ce sera toujours l’ED 268.
5.   Contributor : une entité qui a contribué à la création du contenu de la
     ressource.
6.   Date : une date associée à un événement dans le cycle de vie de la
     ressource.
7.   Type : la nature ou le genre du contenu de la ressource.
Eléments de métadonnées Dublin Core
8. Format : la matérialisation physique ou digitale de la ressource.

9. Identifier : référence non ambiguë à la ressource dans un contexte donné.

10. Source : référence à une ressource à partir de laquelle la ressource actuelle a
      été dérivée.

11. Language : la langue du contenu intellectuel de la ressource.

12. Relation : référence à une autre ressource qui a un rapport avec cette ressource.
13. Coverage : la portée ou la couverture spatio-temporelle de la ressource.

14. Rights : information sur les droits sur et au sujet de la ressource.
  OAI : Open Archive Initiative
• Concept « d’interopérabilité. »

  – Recherche sur les métadonnées.

  – Retrouver l’emplacement physique des corpus
    sans les télécharger.

  – Accessible à tous.
                  Extensions OLAC
5 extensions du Dublin Core rattachées à la linguistique:

   –   Discourse Type : (drama, narrative, language play,…)
   –   Language Identification : (code ISO: fr, en,…)
   –   Linguistic Field : (sociolinguistique, phonétique,…)
   –   Linguistic Data Types : (lexicon, primary-text,language-description)
   –   Participant Roles : (annotator, author, speaker,…)


OLAC ne remplace pas, mais complète, spécifie le DC
par rapport aux attentes de la communauté linguistique.
   MKM (Make Metadata) S. Fleury
• Comment insérer ces métadonnées de façon
  conviviale ?

• Outil « fait-maison »…
                  code résultant


• <dc:subject xsi:type="olac:linguistic-field"
  olac:code="phonetics" />
Manuel d’utilisation

    MKM 1.10
   MakeMetaData
Les onglets MKMETA1, (6)contiennent les fenêtres d’édition pour
l'écriture des métadonnées et les points d’entrée pour les différentes
fonctionnalités associées.
               Démarche (1)
• Pour constituer les métadonnées, vous devez
  remplir l'ensemble des formulaires MKMETA1,
  (6). Pour chacun de ces onglets, compléter la
  colonne METADONNEES. Pour vous aider dans
  cette tâche vous pouvez consulter les fichiers
  d'aide disponibles (sur la colonne la plus à droite
  de chaque ligne du formulaire).
•
                 Démarche (2)
• Dans chacun de ces onglets, vous trouverez soit
  des cases à cocher, soit des zones de saisie avec un
  bouton "Edit" donnant accès à un éditeur.
•
• Les zones de saisie se composent de deux champs
  (de saisie) :
   – un pour entrer la valeur de la métadonnée idoine,
   – l'autre pour décrire la langue utilisée dans le premier
     champ
                                 …
• Par défaut ce second champ est initialisé avec la valeur "fr".
•
• Vous pouvez modifier cette valeur en regardant le fichier HTML
  fourni avec mkMetadata (LanguageCodes.html) qui donne une
  présentation de ce tableau de codage des langues. Accès à ce fichier
  via le bouton CODE de l'onglet HELP-DC-OLAC.

• Pour certaines zones de saisie, un modèle est fourni pour écrire la
  métadonnée : c'est le cas par exemple pour décrire les contributeurs :
  dans le cas ou plusieurs personnes sont associées
• à un champ contributeur, chaque Nom complet (le nom suivi du
  prénom) doit être séparé du suivant par un point virgule. Il est
  important de respecter ce format.
Un exemple
                Un exemple (2)
• on peut vouloir donner 2 métadonnées de type "title", l'une
  écrite en français et l'autre en anglais. Pour réaliser cette
  bi-description, on active l'éditeur de métadonnée
  disponible en regard de l'élément "title" , une zone
  d'édition permet ensuite de décrire la métadonnée : dans
  celle-ci, un onglet = une description dans une langue
  donnée.
             Export des traitements
• Une fois les 6 onglets remplis, la génération des
  métadonnées est déclenchée par l'activation du
  bouton EXPORT , le fichier de métadonnées
  constitué est visible dans la fenêtre d'édition de
  l'onglet RESULT.
•
• La génération des métadonnées produit un fichier
  du type : MK-METADATA-yyyyyyyyyy.xml,

•   Ne pas oublier de renommer ce fichier après avoir quitté le programme, car au
    prochain lancement du programme tous les fichiers de ce type seront effacés
    (fichiers avec une extension html, txt, png etc.).
                     Et puis …?
• Une fois constitué le fichier de métadonnées, il est possible
  de valider ce document (parseur XML), de produire une
  version HTML de ce fichier de métadonnées (2 versions
  sont disponibles) ou d'en produire une image au format
  PNG.

• Le bouton INIT (fenêtre principale) permet de réinitialiser
  l'ensemble des formulaires des onglets MKMETA1,
  MKMETA2, MKMETA3, MKMETA4, MKMETA5,
  MKMETA6.
•
          Import de métadonnées
• Il est possible de ré-importer un fichier de métadonnées
  préalablement construit avec ce programme.
•
• Un fichier d'export est automatiquement construit en
  activant le bouton EXPORT . Son nom est du type
    EXPORT-MK-METADATA-yyyyyyyyyy.xml
•
•   Ne pas oublier de renommer ce fichier après avoir quitté le programme, car à
    chaque lancement du programme tous les fichiers de ce type seront effacés.
•
• Pour importer un fichier, il suffit d'activer le bouton
  IMPORT et de sélectionner le fichier souhaité.
                 Exercice à prévoir
• Pour votre TD, vous devrez utiliser le fichier
  enregistré pour le cours d’interaction :
• Remplissez les métadonnées en
  conséquence …
• Rappel : une fiche de métadonnées par fichier sonore, et une par grille
  d’annotation.

								
To top