conducteur stage irfec recherche

Document Sample
conducteur stage irfec recherche Powered By Docstoc
					Karen Chabriac
Jacques Piot
CRDP Midi-
Pyrénées
janvier 2008

                 1
PREMIÈRE PARTIE




      • PRÉALABLES A LA RECHERCHE
La première des choses à faire quand on se
lance dans une recherche sur le Web, c'est de
ne pas aller sur le web lancer son automate
préféré
                            10 règles d'or


– Briser le réflexe Google : l'enlever des bureaux des postes de travail ou y
  mettre des “Google personnels”.

– Savoir questionner : mobilisation des idées, cerner le sujet, définir le
  concept, le traduire en mots-clés

– Maïtriser les outils de recherche : avoir une connaissance approfondie d'au
  moins deux outils et croiser les réponses (ex http://twingine.com/ ) ou
  Google/Exalead ou Google/Ujiko

– Maîtriser les outils de navigation (gestion des signets, récupération des
  données)

– Interroger prioritairement son fonds avec le logiciel local puis élargir
  éventuellement à partir des documents trouvés.
                                   10 règles d'or

   connaître les sites référence qui servent de point de repère, bons sites d'un
    domaine, portails spécialisés exerçant une veille spécialisée ex : http://crdp.ac-
    amiens.fr/edd2/

   analyser l'information trouvée déterminer sa qualité, les dates trouvées,
    regarder les “métatags” en code source, appliquer une grille d'analyse, faire
    preuve d'esprit critique systématique face à l'information du Net ex
    :http://www.webalpa.net/

   garder des traces de sa recherche par le bookmark local ou utiliser un moteur
    personnalisable qui gardera en mémoire l'historique de vos recherches (
    Google history, Ujiko, Copernic ...) ou encore utiliser le partage de signets sur
    serveur externalisé (del.icio.us)

   rester clair sur ses objectifs et ses critères (trajectoire parcourue et qui reste à
    parcourir)

   chercher en conjuguant les outils classiques et la navigation liée
STRATEGIE :


 Deux    préalables avant toute recherche :

   avoir compris le mode de fonctionnement des outils pour choisir le mieux
    adapté à la question

 avoir   pensé sa recherche et prendre le temps de définir une stratégie
STRATEGIE : Utiliser les bons mots-clés

   trouver les bons mots-clés ; eviter terme trop généraux, choisir de préférence
    des noms; choisir le nombre de mots

   saisir correctement les mots dans l'outil choisi , vérifier de l'importance de l'
    ordre des mots

   utiliser un thésaurus en ligne :Motbis par ex

   utiliser les propositions de moteurs utilisant la “clusterrisation” TA d' Exalead
    en informatique un cluster est un ensemble de données ou d'éléments
    présentant des similarités.

   chercher des synonymes avec des dictionnaires , utiliser les encyclopédies
    pour trouver des notions associées des concepts liés ou voisins ,,,
DEUXIEME PARTIE




     • LA RECHERCHE D'INFORMATIONS
    Les tendances de la recherche d'information :
                   (A. Serres)
   De la dépendance à l' autonomie de l'usager


   De la maîtrise des stocks à la surabondance des flux


   De la validation « à priori » à la validation « à postériori


   De la rareté à l' explosion des outils et modes de recherche


   du « retrouvage booléen » à la sérendipité une place est désormais laissée au
    hasard : Notion de sérendipité : découverte par chance de résultats que l’on
    attendait pas. Fondée sur intuition, association d’idées ...


   du modèle de l' accés à celui du traitement de l' information


                                                                                    9
Sur le web :
2 approches méthodologiques dominantes
   L’approche par mots clés : recherche par mots clés sur le texte intégral.


           ‣ Qualité de la recherche dépend du choix des mots clés : nombre,
             précision, combinaison...

• L’approche par exploration des sources : identifier des sources d’information
  pertinentes par rapport à la requête : sites phares


           ‣ Utilisation des outils de recherche intégrés à ces sources, et
             navigation hypertextuelle. Suppose une bonne connaissance des
             sources




                                                                                  1
                                                                                  0
Troisième PARTIE




        • LES OUTILS DE RECHERCHE
Outils de recherche : les grandes catégories
• Les annuaires : ressources catégorisées (plutôt répertoire) : dmoz


• apparentés aux annuaires :les listes de signets structurées ex BNF, BPI,,,,


• Les moteurs de recherche : recherche par mots clés sur les contenus


• Les métamoteurs : interrogation simultanée de plusieurs moteurs : Copernic,
  Kartoo


• Les multimoteurs : (pas de retraitement des flux des moteurs) ex : Lecdi.net,
  manhack, Zefab Veosearch


• Les portails et sites spécialisés: point d’accès à des ressources et services
  multiples.
                                                                                  1
                                                                                  2
 Les portails fédérateurs d’outils de recherche :
 Multimoteurs
• Regroupe en une seule interface un grand nombre d’outils de recherche :
trois exemples


      ‣http://manhack.net/ : Manhack.net est un outil de veille et de
        recherche sur internet permettant d'interroger, en quelques clics et
        à partir d'un seul et même formulaire plusieurs outils (moteurs,
        dictionnaires, blogs, bases de données ...


      ‣Zefab.info : centre de recherche d'information. Portail d’accès à un
        grand nombre d’outils de recherche, classés par catégories.


      ‣lecdi.net   est un portail de recherche documentaire C’ est un outil de
        type métamoteur qui permet un accès rapide et simultané au contenu de
        plusieurs sites sélectionnés.




                                                                                 1
                                                                                 3
                             TP : 20 minutes
• consigne :

• je   découvre les outils que je ne connais pas :

• les signets structurés de la de la BNF, BPI

• les moteurs ujiko, exalead

• le portail de la recherche : Zefab


• Les multimoteurs : (pas de retraitement des flux des moteurs) ex : Lecdi.net,
  manhack,net,
Les Annuaires : Tendances et Exemples

• A l’heure actuelle, les annuaires sont délaissés.


• Annuaires généralistes :

   – Google Directory utilise DMOZ

   • Annuaire Yahoo

   • Dmoz (annuaire contributif et bénévole) quasiment seul “survivant” :
     repérage et sélection par internautes




                                                                            1
                                                                            5
Les Portails et sites spécialisés


 Définitions   :

   – "Ressource accessible via Internet, constituant un point d'accès unique,
     simplifié, facile d'emploi et unifié, pour un public cible, à des ressources
     (services, produits) électroniques distantes, variées et hétérogènes".
     (Sylvie Dalbin, Instruments de recherche sur le Web, in La Recherche
     d'information sur les réseaux, cours INRIA 2002)

   – Un site Web considéré comme le point d’entrée d’autres sites Web,
    souvent en constituant ou en offrant l’accès à un moteur de recherche.




                                                                                    1
                                                                                    6
Les Portails et sites spécialisés : les grandes
catégories

   Portails généralistes : ex :Portails des fournisseurs d’accès Internet ex : free.fr,
    Wanadoo ...

   Portails spécialisés : ex :Portail de la culture ;

• Sites spécialisés : ex éducation pour la défense ; éducation pour la santé ;
  EDD

• Base de données spécialisées : ex Educasources




                                                                                           1
                                                                                           7
Les Moteurs de Recherche :
Définition - Caractéristiques

       Définition : outil automatisé d’indexation et de recherche des
        ressources du web Interrogeables par mots clés

    • Généralistes (Google, Yahoo, Exalead ,MSN...)

    • ou spécialisés ( Google Scholar, Spinoo, in-extenso.org...)

        voire personnel (Google Piot )




                                                                         1
                                                                         8
Les Moteurs de Recherche :
Définition - Caractéristiques



   Fonctionnement : 3 modules autonomes :

      • robot collecteur ( spider ou crawler): collecte des données dans les
        milliards de pages

      • module d’indexation : base de données du moteur qui contient tous les
        mots significatifs des pages visitées par le robot d'exploration

      • module de requête : gestion des requêtes et des résultats
Fonctionnement des moteurs de recherche :
la collecte des données

  ‣ Les robots collecteurs explorent les réseaux de liens et parcourent les
    différentes ressources du Web soit de manière aléatoire soit à la suite
    d’une demande de référencement. S'y ajoute le parcours des liens à
    l’intérieur des pages


  ‣ Les données ainsi collectées par le robot permettent alors la constitution
    d’une base de données qui contiendra alors tous les mots significatifs
    des pages visitées par le robot d'exploration




                                                                                 2
                                                                                 0
    Fonctionnement des moteurs de recherche :
    la collecte des données

   La collecte est au coeur du système

   une part croissante est indexée il est difficile d'obtenir des chifffres précis sur
    le volume indéxé:

   l'index de google est mis à jour quotidiennement.

   les index de moteurs sont répartis sur plusieurs machines (+ de 50000
    serveurs pour Google sur plus d'une dizaine de « Data Center »




                                                                                          2
                                                                                          2
Fonctionnement des moteurs de recherche :
la construction des index

   Deux méthodes de traitement et d’indexation


      • Analyse linguistique (reconnaissance des mots) :

      • Analyse statistique (fréquence des mots)
Fonctionnement des moteurs de recherche :
la construction des index : analyse linguistique

•   Les moteurs de recherche utilisent des techniques d’indexation automatisée

•
     Quatre niveaux : morphologique, lexical (lemmatisation d' Exalead par ex),
    syntaxique, sémantique (pas utilisé par les moteurs à ce jour)




                                                                                  2
                                                                                  4
Les Moteurs de Recherche :
Affichage et classement des résultats (relevance ranking)

   méthodes de classement :

    – tri par indice de densité du mot-clef, indice de pertinence : calculs statistiques sur
      la fréquence des termes… nbre d'occurence


    – tri par popularité : indice de popularité,


    – …. + positionnement payant...




                                                                                               2
                                                                                               5
Les Moteurs de Recherche :
Affichage et classement des résultats (relevance ranking)

   L’indice de pertinence : mesure fondée à la fois sur la fréquence d’apparition
    des termes de la requête dans la page et sur la localisations. Pondération des
    termes (poids plus grand s’il s’agit des termes du titres, des metatags, du
    début de la page...). Cet indice est présent sur la majorité des moteurs de
    recherche


• L’indice de popularité : Critère de classement introduit par Google (Page
  Rank). Mesure fondée sur les hyperliens : les pages web les plus citées (liens
  fournit par d’autres pages) sont considérées comme les plus populaires et
  pertinentes donc classées en premier.


           ‣ En découlent les algorithmes de pertinence propres à chaque moteur
             et gardés secrets.


                                                                                     2
                                                                                     6
Les Moteurs de Recherche :
Gestion des requêtes et Présentation des résultats

• Néanmoins, quelques problèmes posés :


        ‣ Spamdexing : consiste ainsi à ajouter des mots-clés sans rapport
          avec la page et à les dissimuler aux yeux des visiteurs. Parmi les
          techniques souvent considérées comme du spamdexing citons les
          suivantes :

          • La mise en place de mots-clés de la même couleur que le fond de
            page (invisible words),

          • l'ajout de mots-clés dans les méta tags sans aucun rapport avec la
            page, la répétition de mots-clés (appelé aussi bourrage de mots-
            clés, en anglais keywords stuffing),

          • Le détournement de pages web (pagejacking)... (source CCM)
                                                                                 2
                                                                                 7
    Règles de base pour l’utilisation des moteurs

• on note un effort des producteurs de moteurs pour normaliser les syntaxes
  d'interrogation (le – veut dire sauf, les « « encadrent une expression ...)
• Les majuscules, minuscules et accents: différences dans la prise en compte ou
  non de la casse.-
Même principe pour les accents

•  Les opérateurs + et -
+ : présence obligatoire du mot dans la page
- : absence obligatoire du mot dans la page




                                                                             2
                                                                             8
Les Moteurs de Recherche
Quelques avancées et tendances

•   La personnalisation


    ‣   Au delà de la personnalisation de l'interface et des préférences : stockage
        des éléments d'information ; historique des recherches
    ‣   ex1 : Ujiko (technologie Yahoo) : mémorisation et personnalisation des
        recherches ; url annotées, cochées, coup de coeur, filtrées, supprimées
    ‣   ex2 : « sauvegarde les résultats ; Google « my Search History »
    ‣   ex3 :Mozbot (technologie Google) : 20 dernières recherches ; mise en
        favoris, exclusion, envoi par mail, suggestions de mots
    ‣   Prise en compte des requêtes précédentes...
    ‣   Possibilité de créer son propre moteur de recherche (Google CSE)
    ‣   Google Custom Search Engine .


                                                                                      2
                                                                                      9
Quelques outils pour faciliter la recherche
d'information sur internet

   Google CSE : moteur Google personnalisé


   ex : http://www.google.com/coop/cse/


   XIPPEE : module additif (pour firefox, yahoo, ...)


   http://www.xippee.com/default.aspx


   Addififs pour Firefox de technologies de l' OpenSearch


   http://fr.wikipedia.org/wiki/OpenSearch
TP : Nouveaux outils de recherche

• 1 Créer son moteur personnalisé démonstration collective (l'enregistrement
  est trop long: voir fiche jointe à l'article du stage sur cdi_acad

• 2 demo xippee : ajouter le module xippee de firefox utilisez avec Google

• 3 demo firefox Opensearch : ajouter les modules additifs de firefox pour
  l'OpenSearch




                                                                               3
                                                                               2

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:7
posted:6/28/2012
language:French
pages:30