Informationsmanagement im Internet by wuyunqing

VIEWS: 22 PAGES: 36

									Informationsmanagement im
          Internet


       Prof. Dr. Dr. Popp
        FH Deggendorf
              Suchmaschinen richtig
                   eingesetzt
•   Themenkataloge
•   Pull-Systeme - Search Engines
•   Push-Systeme
•   Suchagenten




Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   2
                    2.2 Suchmaschinen
  Bei der Arbeit mit WWW-Suchsystemen und zur
  Beurteilung der Qualität der Antworten sind
  folgende Einschränkungen zu bedenken:
• 2002 gibt es 165 Millionen Host-Rechner im
  Internet
• Weltweit sind es ca. 565 Millionen Anwender
  Suchsysteme kennen nur einen Ausschnitt aus
  dem WWW (dort gibt es ca. 4 Mrd. Dokumente)

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   3
                    2.2 Suchmaschinen
• Die Struktur des WWW ist ein Nachteil für die Suche
• Permanent wachsender und sich ändernder
  Dokumentenbestand
• Dokumente sind nicht durch genormte/gewichtete
  Schlagworte beschrieben
• Keine präzise Sacherschließung wie in fachspezifischen
  Datenbanken
• Keine zentrale Ordnungs- und somit Suchstruktur
• Zahlreiche unterschiedliche Suchwerkzeuge
• Suchsysteme sind immer zeitlich versetzt

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   4
                      2.2.1 Navigation

  Das WWW stellt sich als ein weltweites
  Hypertext-Netz dar, in dem die Benutzer unter
  Nutzung der URL navigieren können. Es stellt
  sich hier aber das Problem des „getting lost in
  hyperspace“. Schon nach wenigen Hypertext-
  Links fragt sich manchmal der Benutzer: Wo bin
  ich? Wie bin ich hierher gekommen?
Beispiel: Homepage eines Bürgernetzes;
  http://www.degnet.baynet.de
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   5
               2.2.2 Themenkataloge
Kennzeichen:
• Hierarchisch nach Themen unterteilte WWW-
  Adressen
• Jeder Knoten des Katalogs enthält weitere
  Themenunterteilungen und eine Liste relevanter
  WWW-Adressen zum aktuellen Thema
• Dienen den Einstiegs- bzw. Überblicksrecherchen
• Recherche durch Navigation im Themenkatalog

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   6
               2.2.2 Themenkataloge
• Aufnahme neuer WWW-Adressen durch
  Benutzeranmeldung bzw. Analyse anderer
  Informationsquellen
• Hoher redaktioneller Aufwand bei der
  Überprüfung und Einordnung neuer
  Adressen


Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   7
               2.2.2 Themenkataloge
Beispiel: Yahoo
• Yahoo (http://www.yahoo.de) gehört zu den
  Suchsystemen der ersten Generation
• Der große Vorzug von Yahoo ist ein hierarchisch
  sortierten Katalog (Themenkatalog), in dem
  innerhalb bestimmter Themengebiete gesucht
  werden kann.
• Der     Yahoo-Katalog     wird   nur teilweise
  automatisch über Roboter, in erster Linie jedoch
  durch     einen    großen   Redaktionsstab    an
  Mitarbeitern aufgebaut.
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   8
                 2.2.2 Themenkataloge
1. http://www.allesklar.de (Reisebüros in Deggendorf)
2. http://div.web.de    (Nennen    Sie    mir       die
   Internetprovider in Ihrer Nähe)
3. http://www.dino-online.de
4. http://www.lycos.de/katalog: (Themenkatalog von
   Lycos)
5. http://www.europages.com (Branchenverzeichnisse,
   Deggendorfer Werft)
6. Ein virtueller Bibliothekskatalog findet man unter:
   http://www.vlib.org
  Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   9
               2.2.2 Themenkataloge
• Unter http://www.fh-
  augsburg.de/informatik/projekte/mebib/ findet
  sich an der FH Augsburg eine Linksammlung zu
  deutschen und internationalen Katalogen.
• Kataloge haben den Nachteil, daß sie nur einen,
  meist geringen Teil der Information des Internet
  abdecken, ihre Strukturen unterschiedlich sind und
  sich nicht an etablierten Klassifikationssystemen
  orientieren.
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   10
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
Merkmale:
• Sie suchen die Homepage der Suchmaschine auf.
• Sie formulieren Ihre Suchanfrage (mindestens ein
  Suchbegriff, möglichst mehrere) und geben sie
  ein.
• Sie erhalten eine Liste mit URLs mit
  Suchergebnissen, die dynamisch erzeugt wird
• Zum Ergebnis der Suche gelangt man immer erst,
  indem man den vom Suchsystem ausgegebenen
  Webadressen nachgeht und sie einzeln überprüft
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   11
                    2.2.3 Pull-Systeme -
                      Suchmaschinen
• Search Engines - Merkmale
• 1.Recherche über logisch verknüpfte Schlagwörter
• 2.Ablage der Schlagwörter und der zugehörigen
  WWW-Adressen in leistungsfähigen Datenbanken
• 3 Automatisches Auffüllen/Updaten der Datenbank
  (Roboter)
• 4. Bewertung der Suchergebnisse
• 5.Besser vergleichbar als die bzgl. Aufbau und
  Struktur sehr heterogenen Themenkataloge
 Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   12
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
Search Engines – Informationsbeschaffung:
• Roboter: Programme die Hyperlinks rekursiv
  verfolgen
• WWW- Dokumente werden nach Schlagwörter
  durchsucht und in einer Datenbank gespeichert
• Die Datenbank wächst beständig, da man als
  Startpunkte neben den schon bestehenden
  Adressen in der Datenbank auch personell
  eingegebene nutzt

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   13
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
• Suchstrategien: Breitensuche vs. Tiefensuche
• Ausschluß eines Dokuments von der
  Klassifikation durch einen Roboter: robots
  exclusion standard
• Erfassungsstrategien: Teilweise Erfassung (z.B.
  nur Titel und die ersten n Wörter des Hauptteils),
  Vollständige Erfassung (alle Wörter des
  Dokuments), Metainformationen (bei der Anzeige
  nicht sichtbare Klassifikationsinformationen)
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   14
          Anmerkungen zur Suche
     Bei Verwendung von Kleinbuchstaben suchen die meisten Suchdienste
      standardmäßig auch alle klein und groß geschriebenen Varianten
        AltaVista lieferte für next 2,5 Mio. Treffer für Next 2,1 Mio. und für
          NeXT 57.500.
     Immer mehr Systeme akzeptieren die deutschen Umlaute
     Sonderzeichen als Wortbestandteil bereiten manchen Suchmaschinen
      Probleme, z.B. C++
     Einige Suchmaschinen (z. B. Lycos) ignorieren Stoppwörter (for, on, from
      usw.)
     Ergebnisliste:
        Anzahl der Treffer unterscheidet sich von Suchmaschine zu Suchmaschine
        AltaVista und HotBot nennen auch das Datum der letzten Änderung an
          der jeweiligen Seite und die Größe
        Excite und HotBot geben eine Prozentzahl für die Relevanz an
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp                  15
           Anmerkungen zur Suche
 Ranking
      Die angewandten statistischen Berechnungsmethoden für die Relevanz
         eines Dokumentes in Bezug auf die Suchanfrage sind von Suchmaschine
         zu Suchmaschine unterschiedlich
      Sicher ist, daß die Relevanz erhöht wird, wenn der Suchbegriff im Titel
         auftritt, mehrfach im Dokument auftritt oder möglichst weit vorne im Text
         steht
      Falls nach mehreren Begriffen im Text gesucht wird, rutscht ein Treffer
         im Ranking umso weiter nach oben, je näher sie im Text beieinander
         stehen
      Weitere Gewichtungsmöglichkeiten können Popularität eines Dokumentes
         sein (je mehr Links auf diese Seite verweisen, um so populärer gilt sie)
   Treffer-Weiterverarbeitung reicht vom einfachen Umsortieren über die An-
    zeige thematisch ähnlicher Informationen bis hin zur Suchverfeinerung
    (refine)
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp                16
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
• Google ist bisher die einzige Suchmaschine, die
  auch PDF-Dokumente indexiert hat
• Suchbeispiele:
• Google bietet Suchen nach Allgemeinem (Web),
  Bildern und Diskussionsforen (Groups), sowie
  eine Themenkatalog-Suche (Verzeichnis) an.
      – Suche 1: Geben Sie in die Dialogbox die Begriffe FC
        Bayern München ein - dabei werden Blanks als UND
        interpretiert.

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   17
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
      – Suche 2: Neben der Eingabemaske für die
        einfache Suche gibt es noch die erweiterte
        Suche. Suche nach dem aktuellen Trikot des FC
        Bayern




Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   18
 Suchmaschinenvergleich: Leistung
                                AltaVista           Google         AllTheWeb     Lycos
 Größe DB (in                      2,1               2,5               2,2        0,7
 Milliarden Seiten)
 Volltext-Analyse                   Ja                 Ja              Ja          Ja
 Besuchsabstand (in                2–4                1–4             2–3         2 -3
 Wochen)
 Impliziter Operator                OR               AND              AND        AND
 bei Mehrwort-Suche
 Unterscheidung                 Erweiterte            Nein         Wortanfang    Nein
 Groß-/Klein-                     Suche
 schreibung
 Ausgabe: Datum                    Nein               Ja           Nachrichten    Nein
 Suche verfeinern                 Refine            Search           Refine      Refine
                                                    Results


Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp                          19
      Abdeckungsrad - Fehllinks unter
                 Treffer
              (Schätzung)
•   AltaVista                                    40 %              2,0 %
•   Google                                       45 %              2,0 %
•   AllTheWeb                                    40 %              2,5 %
•   Lycos                                        10 %              1,0 %




Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp           20
          Suchmaschinenvergleich:
                 Treffer


Suchbegriffe            AltaVista             Google   AllTheWeb                 Lycos
Wirtschafts-                50.820             176.000     134.969                191.833
informatik
Multimedia                8.943.317         14.300.000             30,838,120   30.630.725
SAP                         922.995          2.960.000              3,320,338    3.374.373
Aktienkurse                 329.375            280.000                 87.392       81.355




Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp                        21
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
Trends bei Suchmaschinen:
• Die Unterscheidung in Katalog, Volltextsucher und Metasuchmaschine
   löst sich immer mehr auf. Metasuchen setzt sich durch.
• Versteckte Werbung
• Page Ranking Verfahren
• Sponsored Links
• Unscharfe Suche
• Refine / Suce im Ergebnis
• Erfassen einer vielzahl von Dokumententypen
• Bewältigung komplexer Anfragen (ganze Sätze)
• Recherche auf dem eigenen Rechner bzw. Intranet



Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   22
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
Zugriff auf mehrere Suchwerkzeuge über eine
  WWW-Adresse
• Einmalige Eingabe der Suchbegriffe, die parallel
  an mehrere Themenkatalogen und Suchmaschinen
  weitergeleitet werden (unified).

• Beispiele:
• http://www.Metacrawler.de
• http://www.metager.de
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   23
                   2.2.3 Pull-Systeme -
                     Suchmaschinen
• Metacrawler:
      – unterhält keine eigene Metadatenbank
      – Leitet Suchanfrage an 7 global indizierte
        Suchmaschinen weiter
• Problem:
      – Können keine komplexe Anfragen bearbeiten
      – Advanced-Search-Funktionen sowie
        Operatoren, wie NOT, normalerweise nicht
        verarbeitet werden
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   24
     Suchtips I - Welches Werkzeug ist
             wann am besten?
• Kataloge
       Suchen zu Informationen zu einem bestimmten, aber weit gefaßten Gebiet
        (z.B. die Sprache Java), “breite Suche”
       Suchen, die einen Einstieg in ein Thema liefern sollten
       Suchen, bei denen das thematische Umfeld interessiert
       Die Suchergebnismenge soll klein gehalten werden, also falsche Treffer
        vermeiden
• Suchmaschinen
       Suchen nach Eigennamen (Daten über eine Person), Individualbegriffen,
        Akronymen, exotischen Begriffen
       Suchen in URLs
       Suchen nach Themenaspekten, die sich mit Begriffen abgrenzen lassen

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp                25
                                 Suchtips II
•    Man muß sich mehrerer Suchmaschinen bedienen, denn es gibt keine
     Suchmaschine,
       die auch nur das halbe Web erfaßt
       die perfekte Ergebnisse liefert
       die alle möglichen Funktionen aufweist
•    Zu wenig gefunden
      – Verwenden Sie Synonyme
      – Erweitern Sie Ihre Suchliste um die Plurale, um Abkürzungen
•    Zu viel gefunden, dann engen Sie die Suche ein
              Boolsche Operatoren verwenden, AND und NOT (bzw. +)
              Suchraum begrenzen, z.B. nur die deutschsprachigen oder nur die in den
               letzten 12 Monaten geänderten
              Eingrenzungen: räumlich, medial (Java, Bilder, Sound), URL,
               Titel/Überschrift


Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp                    26
                     2.2.3 Pull-Systeme -
                       Suchmaschinen
Beispiele für speziele Suchdienste:
• Maillinglisten: http://www.liszt.com,
  http://www.tile.net/lists
• Software suchen: http://ftpsearch.ntnu.no;
• Software-
      Archive:http://www.shareware.de
• Deutsches Recht: http://www.recht.de
• http://www.paperball.de, paperazzi.de
  Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   27
                      2.2.5 Push-Systeme
• Ziel ist es, vom “Pull” zum “Push” zu kommen
• Beschreiben der Informationsbedürfnisse durch Benutzerprofile
   – Auswahl der gewünschten Nachrichtenkanäle (z.B. CNN)
   – Festlegen der interessierenden Schlagworte
• Mit der Software von Infogate (download von http://www.infogate.com)
  wird der Browser zur Nachrichtenzentrale
• Über die Server des Herstellers erhalten andere Firmen die Möglichkeit,
  Nachrichten, Wirtschaftsberichte, Wettervorhersagen, Sportereignisse
  usw. direkt über das Internet zu übertragen, wobei Infogate als
  multimediale Oberfläche für die jeweiligen Inhalte dient
• Die Informationen werden analysiert und über das Internet individuell
  an die Benutzer übermittelt.

 Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp     28
     2.2.6. Informationssuche per
             Software-Agent
• Unter Bezeichnungen wie Agenten, Knowbots, Robots,
  Spider oder einfach Bots tummeln sich kleine Programme
  im Netz, die im Informationswirrwarr genau das
  herausfiltern, was der Benutzer zur Vorgabe gemacht hat.
• Um solche Helfer zu nutzen, ist es lediglich nötig, dem
  Agenten seine Interessen und Vorlieben mitzuteilen - und
  ihn mit diesem Auftrag in das weltweite Netz
  loszuschicken.
• Die digitalen Assistenten versuchen dann genau das zu
  holen, was man bei herkömmlichen Suchmaschinen
  allenfalls unter einem mitgelieferten Adreß-Berg finden
  kann

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   29
         2.2.6. Informationssuche per
                 Software-Agent
    Eigenschaften        bzw.     Fähigkeiten       eines
    Einkaufsagenten:
•   kommuniziert mit seinem Benutzer und mit anderen
    Agenten
•   lernt vom Verhalten seines Benutzers und von
    anderen Agenten
•   vermag auch auf unvorhergesehene Ereignisse
    richtig zu reagieren
•   entscheidet selbständig, mit welchen Mitteln er seine
    Aufgabe erfüllt
    Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   30
     2.2.6. Informationssuche per
             Software-Agent
Funktionsweise von Agenten:




                                                                      Server
          Client




                                     Netz




                                                                      Server
                                                              Agent
          Client




                                     Netz

                                     iw3-97.ppt




Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp               31
     2.2.6. Informationssuche per
             Software-Agent
• Den Standard für Software-Agenten hat das
  Direktorium der Industrieorganisation Fipa
  (Foundation for Intelligent Physical Agent)
  verabschiedet. (www.fipa.org)
• Als Agent bezeichnet Fipa autonom agierende
  Softwareeinheiten, die Informationen nehmen,
  verarbeiten, dabei aber standardisiert mit ihrem
  Hardware- und Softwareumfeld sowie anderen
  Agenten interagieren
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   32
     2.2.6. Informationssuche per
             Software-Agent
• Sie bestehen aus vier Komponenten,
      – zuständig für Input und Output (von und zur
        Hardware und Software),
      – Interaktion (mit Agents, Menschen, Software),
      – Informationssammlung und
      – Informationsverarbeitung.



Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   33
     2.2.6. Informationssuche per
             Software-Agent
    Gründe für den Einsatz von Software-Agenten
    im Internet
•   „ lost in space“ (eine einmal gefundene
    Information wird nicht wiedergefunden)
•    „information overload“ (die relevanten
    Informationen werden nicht erkannt)
•   die Struktur des Netzes ändert sich ständig
•   Dokumente werden von einem Rechner auf einen
    anderen verschoben
•   inhaltliche Änderungen erfährt der Benutzer nicht
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   34
   2.2.6. Informationssuche per
           Software-Agent
Probleme
• Arbeit verbraucht Rechenkapazitäten auf jedem
     Computer
• Authentifikations- und Autorisierungsbarrieren (viele
     Computerbesitzer verweigern den Zugang zum
     eigenen Rechner)
• Software-Agent kann weder gestoppt noch
     zurückgeholt werden
• bereits ein kleiner Programmierfehler kann einen
     Computervirus erzeugen
• Suche in multimedialen Informationen bzw. Vielfalt
     der Retrieval-Methoden
Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp 35
     2.2.6. Informationssuche per
             Software-Agent
Beispiele
• Preisvergleicher (<e>MARKET_02/02):
  Das Jahr 2001 war das Jahr des
  Massensterbens unter den
  Preisvergleichern, Player wie Dealtime
  (Bertelsmann-Tochter), Angebot-Info oder
  Primanetor haben nicht überlebt.
• Auktions Agent (z.B. ebay)

Informationsmanagement im Internet - Prof. Dr. Dr. Heribert Popp   36

								
To top