Docstoc

PageRank_und_HITS

Document Sample
PageRank_und_HITS Powered By Docstoc
					PageRank und HITS
   Frank Habermann
   11. Februar 2007




          1
Inhaltsverzeichnis
1 Einleitung                                                                                                                                                       3

2 PageRank                                                                                                                                                         4
  2.1 mathematische Beschreibung . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   4
      2.1.1 Random Surfer Model . . . . .      .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   4
      2.1.2 Berechnung . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   4
      2.1.3 Rechenbeispiel . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   5
  2.2 Vorteile und Nachteile von PageRank .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   5

3 HITS (hypertext-induced topic search)                                                                                                                            7
                            a
  3.1 Konstruktion eines ad¨quaten Subgraphen          des WWW                     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   7
  3.2 Berechnung der hubs und authorities . . .        . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   7
  3.3 Rechenbeispiel . . . . . . . . . . . . . . .     . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   8
                                  o
  3.4 allgemeinere Sicht auf die L¨sung . . . . .      . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   9
  3.5 Vor und Nachteile von HITS . . . . . . . .       . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   9

4 Vergleich von PageRank und HITS                                                                                                                                  11

5 Literatur                                                                                                                                                        11




                                                       2
1    Einleitung
Klassische, aus heutiger Sicht veraltete Suchmaschinen basieren auf reiner textbasierten Analyse der In-
                                                          o
ternetseiten. Das matchen der Suchbegriffe mit einem m¨glichst großen Satz indizerter Webseiten ist
auch heute kaum wegzudenken und immernoch Grundlage moderner Suchalgorithmen. Diese Aufgabe
 a
l¨sst sich z.B. durch eine invertierte Term-Dokumenten-Datei realisieren. Dazu wird das Internet durch
                                           o
so genannte crawler abgesucht, die sich m¨glichst große Teile des Internets durchsucht und die einzelnen
Dokumente tokenisiert. Damit kann man diese Datei aufbauen und sie hat dann etwa die Form:

 Token              Dokumente
 tok1      doc234, doc1908, doc1934, doc3
 tok2         doc2, doc32, doc9991,· · ·
 tok3            doc235, doc14,· · ·
 .
 .                       .
                         .
 .                       .
 tokN             docN1 , docN2 , · · ·
 .
 .                         .
                           .
 .                         .
Wenn jemand also nach dem Wort Aal“sucht und dies gerade tok1 entspricht, dann liefert das Durch-
                                     ”
suchen dieser Datei die Ergebnisse doc234, doc1908, doc1934, doc3. Wenn jemand mehrere Suchbegriffe
eingibt, bekommt man je nach Implementation alle Dokumente aller Token oder z.B. alle Dokumente, die
in allen Token auftreten. Diese Treffer sind aber meist nicht zufriedenstellend und helfen nicht sehr viel
weiter, da man durch das enorme Ausmaßdes Internets oft extrem viele Treffer bekommt (oft einige Mil-
                      a
lionen), die in Qualit¨t, Umfang usw. sehr stark variieren. Die gefundenen Treffer manuell entsprechend
                u
eigener Anspr¨ che nochmals manuell zu durchsuchen ist nicht praktikabel und wird durch das Wachs-
tums immer schwieriger. Um also uberhaupt sinnvoll mit dieser Informationsflut arbeiten zu k¨nnen,
                                     ¨                                                              o
                            o                                              u
sind daher Algorithmen n¨tig, welche die Relevanz von Internetseiten f¨ r bestimmte Suchanfragen be-
werten. Diese Algorithmen sind bestimmten Problemen ausgesetzt, z.B. Polyseme, also Begriffe, die mit
unterschiedlichen Bedeutungen auftreten (z.B. Apple, Jaguar, Bank,...) und Synomyme, also verschiede-
      o
ne W¨rter mit der gleichen Bedeutung (z.B. Kraftfahrzeug, Auto). Außerdem sollten diese Algorithmen
   o              a    u                                                                 a
m¨glichst unanf¨llig f¨ r Manipulationsversuche sein, also Eingriffe, welche uber die tats¨chliche Relevanz
                                                                             ¨
                                                           a
der eigenen Seite z.B. vermittels Bannerwerbung hinwegt¨uschen. Hier sollen 2 verschiedene, wenn auch
¨hnliche Ans¨tze vorgestellt werden, PageRank und HITS. Beide Ans¨tze basieren auf der Idee, dass
a              a                                                          a
                                                                                                  a
man Informationen uber die Relevanz durch die Betrachtung der Linkstruktur des Internets erh¨lt. Man
                     ¨
                                                                                                        u
geht davon aus, dass Betreiber von Internetseiten vorwiegend andere Seiten verlinken, die sie selbst f¨ r
besonders wichtig halten, es liegt deshalb der Gedanke nahe, die Anzahl der eingehenden Links als Maß-
stab der Relevanz zu verwenden. Dieser Gedanke greift jedoch zu kurz, nicht jeder Link von jeder Seite
sollte als gleichwertig betrachtet werden. Bei PageRank wird der Gedanke erweitert, indem man sagt,
eine Seite ist um so wichtiger, je mehr und wichtigere Seiten auf sie verlinken. Bei HITS betrachtet man
nur einen Kleinen Teilgraphen des Internets, der z.B. die Treffer in der Term-Dokument-Datei enth¨lt     a
und schreibt jedem Dokument darin 2 Werte zu, einen als authority und einen als hub. Ein guter hub
verlinkt viele wichtige Seiten mit hohem authority Wert und eine gute authority ist eine Seite, die von
                                                                                  u
guten hubs verlinkt wird, diese hat im Normalfall hohen Informationsgehalt bez¨ glich des Suchthemas.




                                                    3
2       PageRank
2.1     mathematische Beschreibung
Wir betrachten das Internet als einen eindlichen, gerichteten Graphen G = (V, E) mit V = {v1 , ..., vn }
und E ⊆ V ×V , so daß (vi , vj ) ∈ E gdw. Internetseite vi hat einen Link auf Internetseite vj . Sei nun u eine
Internetseite, Fu = {w|(u, w) ∈ E} die Menge der Seiten, auf die u einen link hat, Bu = {w|(w, u) ∈ E}
die Menge der Seiten, die einen link auf u haben und Nu = |Fu |, die Anzahl der links von u und c < 1
                                                                                               o
ein Normalisierungsfaktor, so dass der gesamte Rang aller Seiten konstant bleibt. Nun k¨nnen wir eine
vereinfachte Version des PageRank definieren:

                                                             R(v)
                                         R(u) = c
                                                              Nv
                                                    v∈B(u)

Dies formalisiert schon ganz gut den Gedanken, dass die Relevanz einer Seite durch die Anzahl und
Relevanz der auf Sie linkenden Seiten bestimmt wird. Man kann sich den gewichteten Graphen auch als
                                                                                                      1
eine quadratische Matrix vorstellen, deren Zeilen und Spalten Internetseiten entsprechen, mit Au,v = Nu ,
falls (u, v) ∈ E und Au,v = 0 sonst. Wenn wir R als Vektor uber alle Knoten behandeln, dann erhalten
                                                             ¨
wir R = cAR. R ist hier also ein Eigenvektor von A mit Eigenwert c. Das kann schnell berechnet werden.
Es gibt noch ein Problem mit der vereinfachten Variante, man stellt sich 2 Seiten vor, die zwar auf sich
gegenseitig, aber sonst auf keine weitere Seite zeigen, wenn nun eine weitere Seite auf eine der beiden
Seiten zeigt, dann wird im Laufe der Berechnung immer mehr Rang in dieser Schleife gesammelt, aber von
dort nicht mehr weiter verteilt, man nennt sowas auch eine Rang-Senke. Um mit diesem Problem zurecht
                                                                             u
zu kommen, definiert man sich eine Art Rang-Quelle. Sei E(u) ein Faktor f¨ r alle Internetseiten (Auch
als Vektor Interpretierbar), der jeder Seite einen Wert als Rang-Quelle zuweist. Dann ist der PageRank
R′ ein Vektor uber alle Internetseiten, so dass c maximiert wird und gilt:
                ¨

                                                         R′ (v)
                                    R′ (u) := c                 + cE(u)
                                                          Nv
                                                  v∈Bu


2.1.1    Random Surfer Model
Der gerade definierte PageRank erscheint intuitiv, wenn man das Modell des Random Surfer zugrunde
legt, dieser startet bei einer Internetseite und klickt wahllos auf irgendwelche links. Ein realer Surfer wird
sich aber nicht in einer Schleife von wenigen Webseiten aufhalten, sondern sich irgendwann langweilen
und einfach eine andere Seite aufsuchen, der hinzugenommene Faktor E simuliert genau dieses Verhalten
                                                                    u
und legt eine Zufallsverteilung zugrunde. Oft macht es Sinn, E f¨ r alle Elemente mit dem gleichen Faktor
α zu belegen, der Algorithmus kann aber auch mit beliebigen anderen E implementiert werden, welche
                                                                                               o
z.B. entsprechend besser auf einzelne Benutzer und dessen Vorlieben angepasst werden k¨nnen. E kann
insofern auch als das Vorwissen betrachtet werden. Im Random Surfer Model entspricht der Rang einer
Internetseite gerade der Wahrscheinlichkeit, dass sich der Random Surfer zu einem beliebigen Zeitpunkt
gerade auf dieser Internetseite befindet.

2.1.2    Berechnung
Die Berechnung des PageRank geht recht intuitiv, wenn man mal die Skalierung ignoriert [2]:

                                                  R0 ← S
                                               do :
                                              Ri+1 ← ARi
                                                 d ← Ri 1 − Ri+1          1
                                              Ri+1 ← +Ri+1 + dE
                                               δ ← Ri+1 − Ri          1
                                     while δ > ǫ


                                                         4
2.1.3     Rechenbeispiel
Betrachten wir den Graphen [1] G = ({1, 2, 3}, {(1, 2), (1, 3), (2, 3), (3, 1)})


                                  1




           2




                                  3

                                                        ¨
    und setzen einheitlich E = 0.2. Daraus ergeben sich Ubergangswahrscheinlichkeiten von jedem Knoten
zu jedem Knoten, was man sich mit folgender Matrix veranschaulichen kann:
                                                          
                                               0.0 0.5 0.5
                                       P = 0.1 0.0 0.9
                                               0.9 0.1 0.0

Also im Knoten 1 (entspricht der Zeile 1) ist die Wahrscheinlichkeit in den Knoten 1 zu wechseln gerade
    u                                                                                               a
0, f¨ r den Wechsel zum Knoten 2 und 3 je 0.5. Das Setzt sich aus den E = 0.2 zusammen, die Gleichm¨ßig
                                                                            a
an alle anderen Knoten aufgeteilt, also je 0.1 und 1 − E = 0.8, die gleichm¨ ßig auf alle Knoten verteilt
werden, zu denen eine Kante existiert, also je 0.4. In Zeile 2 und 3 funktioniert die Rechnung genauso,
                a
aber die Werte ¨ndern sich, da keine Kante von 2 nach 1 und keine Kante von 3 nach 2 existiert. Sei nun

                                                            Πi = π1
                                                                  i
                                                                            pii
                                                                              2         pii
                                                                                          3

der Vektor, der die Aufenthaltswahrscheinlichkeiten in den jeweiligen Knoten im Schritt i darstellt. Man
beginnt die Iteration in einem beliebigen Knoten, also:

                                                             Π0        =   1
                                                                           3
                                                                                    1
                                                                                    3
                                                                                          1
                                                                                          3

Von dort aus gelten zu jeweils                1        ¨
                                                   die Ubergangswahrscheinlichkeiten von Knoten 1, 2 oder 3, also:
                                              3

Π1    =    1
           3   · 0.0 +   1
                         3   · 0.1 +   1
                                       3   · 0.9    1
                                                    3   · 0.5 +   1
                                                                  3   · 0.0 +   1
                                                                                3   · 0.1     1
                                                                                              3   · 0.5 +   1
                                                                                                            3   · 0.9 +   1
                                                                                                                          3   · 0.0   ≈ 0.333 0.200 0.466

                                                    o
Diese Rechnung geht jetzt immer so weiter, bis die L¨sung konvergiert:

                                                    Π2       ≈ 0.439 0.212 0.346
                                                        3
                                                    Π        ≈ 0.332 0.253 0.401
                                                        .
                                                        .
                                                        .
                                                   Π∞       ≈ 0.3776 0.2282 0.3942



2.2       Vorteile und Nachteile von PageRank
                                    u                                                        o
PageRank bietet ein globales Maßf¨ r die allgemeine Wichtigkeit einer Seite, arbeitet also v¨llig un-
    a                                                                                              u
abh¨ngig von einer Suchanfrage. Dies hat erstmal uberhaupt nichts mit der Relevanz der Ergebnisse f¨ r
                                                   ¨
                                                u                                         u        u
eine jeweilige Suchanfrage zu tun. Dies kann nat¨ rlich zu extremen Themenabschweifungen f¨ hren. F¨ r

                                                                               5
                                                     a                             o
den Einsatz in einer Suchmaschine sind deshalb zus¨tzlich effiziente Algorithmen n¨tig, um die Relevaz
                                                         a                                  o
zu bewerten, dieses Problem kann aber wiederum unabh¨ngig vom PageRank Algorithmus gel¨st werden.
                  a     u
PageRank ist anf¨llig f¨ r Manipulationen, wie z.B. durch Bannerwerbung. Da aber PageRank auf einem
                                                                                                a
Graphen arbeitet, der im Idealfall das gesamte Internet modelliert (was bereits aufgrund der st¨ndigen
    a                    o                                                a
Ver¨nderungen nicht m¨glich ist), also extrem großist, haben lokale Ver¨nderungen der Linksstruktur
                                                                                     a        u
nur relativ kleinen Einfluss auf das ranking einer Seite. Der Vektor E, welcher zuf¨llige Spr¨ nge von
einer Seite zu einer beliebigen Seite im Internet simuliert, kann jedoch dazu verwendet werden, solchen
Manipulationen entgegenzuwirken, also Seiten abzustrafen, die ihren Rang manipulieren wollen. Da E
                                                               u
signifikanten Einflußauf den PageRank hat, kann dieser auch f¨ r eine Personalisierung der Suche verwen-
                                                 u                  u
det werden oder aber auch, bestimmte Seiten k¨ nstlich zu unterst¨ tzen. Die Berechnung des PageRank
                             o
ist aufgrund der enormen gr¨ße des Graphen (ein paar Milliarden Knoten) auf dem man arbeitet extrem
                                                                                a
Zeitaufwendig, allerdings nicht zur Zeit der Suchanfrage, sondern im Vorraus. W¨hrend der Suche ist die-
ser also bereits ausgerechnet, weshalb z.B. Suchanfragen bei google.com sehr schnell zu einem Ergebnis
 u
f¨ hren.




                                                   6
3     HITS (hypertext-induced topic search)
3.1                         a
       Konstruktion eines ad¨quaten Subgraphen des WWW
Die mathematische Betrachtung des Internets als Graph ist die gleiche wie beim PageRank Algorithmus,
                             o
wobei man dort versucht, m¨glichst das gesamte Internet im Graphen zu modellieren, was u.a. aufgrund
        a          a             o          a                o
der st¨ndigen Ver¨nderungen h¨chstens N¨herungsweise m¨glich ist. Bei HITS reduziert man die Be-
                               a                                                               o
trachtung auf einen aussagekr¨ftigen Subgraphen. Betrachtet man ein festes Thema, hat der gr¨ ßte Teil
des Internets normalerweise nichts mit diesem zu tun. So wird nicht das gesammte gecrawlte Internet
                                                                           u
nach allgemeiner Relevanz geordnet, sondern relativ wenige Seiten werden f¨ r eine bestimmte Suchanfra-
ge geordnet. Man muss sich allerdings diesen Subgraphen ersteinmal konstruieren. Dieser sollte relativ
                                                            a
klein sein, reich an relevanten Seiten sein und viele der st¨rksten authorities enthalten. Wir beginnen
                u                                                                 u
damit, die t (¨ blicherweise t ≈ 200) besten Treffer einer textbasierten Suche f¨ r den entsprechenden
Suchstring σ in die Wurzelmenge Rσ aufzunehmen. Diese Menge ist bereits relativ klein und enth¨lt     a
viele relevante Seiten (zumindest hubs), aber nicht unbedingt viele authorities. Rσ kann man aber zu
einer Menge Sσ von Internetseiten erweitern, die zusammen mit den links zwischen all den Seiten aus Sσ
mit hoher Wahrscheinlichkeit einen brauchbaren Subgraphen ergeben, der die genannten Anforderungen
   u                    a                                                        o       u
erf¨ llt. Da unter Umst¨nden extrem viele Seiten eine einzelne Seite verlinken k¨nnen, f¨ hren wir einen
weiteren Parameter d ein. Sσ wird dann wie folgt berechnet:

                                                                               Sσ ← Rσ
                                                               f oreach p ∈ Rσ
                                                                            Sσ ← Sσ ∪ Fp
                                                              If |Bp | ≤ d then
                                                                           Sσ ← Sσ ∪ Bp
                                                                          Else
                      Konstruiere M enge Tp mit |Tp | = d und Tp ⊂ Bp
                                                                   Sσ ← Sσ ∪ T p
                                                                           end
                                                                     return Sσ

                                                       a
Der Subgraph, der durch Sσ aufgespannt wird, enth¨lt nun mit hoher Wahrscheinlichkeit auch viele
authorities, denn dazu muss es je nur einen einzelnen link aus der Wurzelmenge Rσ dorthin geben.

3.2    Berechnung der hubs und authorities
Wir haben jetzt gesehen, wie wir einen geeigneten Subgraphen als Arbeitsgrundlage erhalten, damit
 o
k¨nnen wir nun hubs und authorithies berechnen. Wir betrachten also einen guten hub als eine Seite,
die viele gute authorities verlinkt und eine gute authority wird von vielen guten hubs verlinkt. Sei nun
h = (h1 , ..., hk ) ein Vektor uber alle Internetseiten aus der gerade errechneten Menge Sσ (mit |Sσ | = k),
                               ¨
der jeder Seite ein Hub-Gewicht zuordnet und entsprechend a = (a1 , ..., ak ) ein Vektor, der jeder Seite
ein Gewicht als authority zuordnet. Die Vektoren werden so normalisiert, dass die Summe der Quadrate
                                                o
der Komponenten jeweils 1 ergibt. Jetzt k¨nnen wir 2 Operationen I, O zum updaten der Gewichte
definieren [3]:

                                  I : ai   ←                hx , ∀ 1 ≤ i ≤ k
                                               x:(x,i)∈E

                                 O : hi    ←                ax , ∀ 1 ≤ i ≤ k
                                               x:(i,x))∈E



Die eigentliche Prozedur hat nun die Aufgabe, ein gewisses Gleichgewicht zwischen den hubs und den
                                           u
authorities herzustellen, also Fixpunkte f¨ r diese Operationen zu approximieren. Folgende Prozedur tut
      u
dies f¨ r hinreichend große k (entspricht der Anzahl der Iterationen):



                                                       7
                                                                Iterate(G, k)
                                       G ist eine M enge n verlinkter Seiten
                                                                             k∈N
                                                             a0 ← (1, ..., 1) ∈ Rn
                                                             h0 ← (1, ..., 1) ∈ Rn
                                                                 f or i = 1, ..., k
                            berechne ai durch (I) angewandt auf ai−1 , hi−1
                              berechne hi durch (O) angewandt auf ai , hi−1
                                                             normalisiere ai , hi
                                                                                 end
                                                                     return (ak , hk )


Dies kann man nun verwenden, um z.B. die c besten authorities und die c besten hubs herauszufiltern,
                                         o
indem man einfach die Seiten mit den c gr¨ßten Koordinaten ausgibt.

3.3    Rechenbeispiel
Betrachten wir den Graphen G = ({1, 2, 3, 4}, {(1, 2), (2, 3), (2, 4), (3, 4), (4, 3)})


                1




                2




          3




          4

und rechnen einfach mal exemplarisch Iterate({1, 2, 3, 4}, 2). Man beginnt mit der Initialisierung:
                                               a0   = (1, 1, 1, 1)
                                               h0   = (1, 1, 1, 1)


Nun der 1. Iterationsschritt:
                                  I : a1   ← (0, 1, 1 + 1, 1 + 1) = (0, 1, 2, 2)
                                 O : h1      ← (1, 2 + 2, 2, 2) = (1, 4, 2, 2)



                                                         8
Das muss jetzt normalisiert werden, so dass die Summe der Quadrate der Vektorkomponenten jeweils 1
ergibt:
                                             1
                             a1    ←    √
                                         12 +22 +22
                                                    (0, 1, 2, 2)    = (0, 1 , 3 , 2 )
                                                                          3
                                                                              2
                                                                                  3
                                            1
                             h1   ←   √
                                       12 +42 +22 +22
                                                      (1, 4, 2, 2)         1
                                                                        = (5, 4, 2, 5)
                                                                              5 5
                                                                                    2




                                             o
und das geht jetzt immer so weiter, bis die L¨sung konvergiert:

                                        a2               1
                                                   ← (0, 5 , 6 , 6 )
                                                             5 5
                                        h2                          6
                                                   ← ( 1 , 12 , 6 , 5 )
                                                       5 5 5
                                        a2     ←    √ 1 (0, 1 , 6 , 6 )
                                                     2.92   5 5 5

                                        h2     ←   √ 1 ( 1 , 12 , 6 , 6 )
                                                    8.68 5 5 5 5



                                                                       u        ¨
Man kann im Prinzip die Berechnung bereits jetzt abbrechen, diese w¨ rde der Ubersicht kaum beitragen.
Schon jetzt zeichnet sich ab, was passiert, Knoten 1 hat keiner authority Wert und nur geringen hub-Wert,
                                                                           u              o
Knoten 2 bekommt nur einen geringen authority Wert zugeschrieben, daf¨ r aber den gr¨sten hub Wert.
Knoten 3 und 4 bekommen jeweils den gleichen hub Wert und den gleichen authority Wert, da sie nur auf
                                      a
sich gegenseitig linken und beide zus¨tzlich linken. das authority ranking sieht etwa so aus: 3,4,2,1 bzw.
4,3,2,1 und das hub ranking so: 2,3,4,1 bzw. 2,4,3,1. Bei diesen einfachen Beispiel ist dies bereits nach
sehr wenigen Iterationen offensichtlich. HITS schreibt nicht vor, wie man das Problem der gleichwertigen
Knoten 3 und 4 umgeht, dies steht bei der Implementation frei.

3.4    allgemeinere Sicht auf die Losung
                                   ¨
                                                                 u
Man kann sich den betrachteten Subgraphen des Internets nat¨ rlich auch als Adjazenzmatrix A voran-
                                                                                                  u
schaulichen, also Ai,j = 1, falls Seite i einen Link auf Seite j hat und Ai,j = 0 sonst. Offenbar m¨ ssen
                                                                          u
dann die zu findenden Fixpunkte folgende hinreichende Bedingungen erf¨ llen (sei |Sσ | = n, δ, λ Norma-
lisierungsfaktoren ):
                                                          n
                                          hi       =δ          Aij aj
                                                        j=1
                                                        n
                                          ai    =λ           (AT )ik hk
                                                       k=1


                                                         a
Man kann nun die Gleichungen ineinander einsetzen und erh¨lt:

                                               h    = δλAAT h
                                               a    = δλAT Aa

h und a ergeben sich also als Eigenvektoren der Matrizen AAT bzw. AT A und k¨nnen prinzipiell mit allen
                                                                               o
entsprechenden mathematischen Werkzeugen berechnet werden. Allerdings bietet sich das Verwenden der
                                        a                          u
Prozedur Iterate aufgrund der Simplizit¨t und der Anschaulichkeit f¨ r die Darstellung der Funktionsweise
an.

3.5    Vor und Nachteile von HITS
                                                                                        u
HITS berechnet 2 Arten von Rankings, je nach Anwendungsfall kann dass eine oder andere n¨ tzlicher sein.
                            o                a
Außerdem bietet HITS die M¨glichkeit, nach ¨hnlichen Seiten zu suchen, dabei gelten 2 Internetseiten
               a                                             a
genau dann als ¨hnlich, wenn sie besonders viele gleiche Vorg¨nger und Nachfolger im Nachberschafts-
graphen besitzen. Dazu muss man im wesentlichen nur den Subgraphen anders bestimmen. Man sucht zu
                  a                                a
der Webseite Vorg¨nger und Nachfolger, sowie Vorg¨nger der Nachfolger und Nachfolger der Vorg¨ngera


                                                          9
                                                     a
und berechnet davon die authority Werte und erh¨lt damit eine Rangliste ahnlicher Seiten. HITS ar-
                                                                              ¨
              a                                                               o
beitet grunds¨tzlich auf sehr kleinen Matrizen, wenn man es mal mit der Gr¨ße des gesamten Internets
                                      u          a       a                                         u
vergleicht, mit diesen kann man nat¨ rlich verh¨ltnism¨ßig schnell rechnen. Allerdings mußauch f¨ r jede
                                                                 u
Suchanfrage extra die Teilmenge der Seiten bestimmt werden, f¨ r die man je eine eigene Matrix aufstellt
                                                            u                      a
und dann mindestens eine Eigenvektorbestimmung durchf¨ hrt. Dies kostet Zeit w¨hrend der Suchanfra-
ge. Ein anderes Problem ist, dass sich die hub und authority Werte relativ leicht beeinflussen lassen. Das
        u
Hinzuf¨ gen ausgehender Links auf der eigenen Seite ist kein großes Problem, hierdurch kann man den hub
                   o                                         o
Wert der Seite erh¨hen. Eingehende Links kann man, die n¨tigen finanziellen Mittel vorrausgesetzt, z.B.
durch Bannerwerbung beeinflussen, hierdurch wird der authority Wert einer Seite manipuliert. Da man
nur auf einem sehr kleinen Subgraphen des Internets arbeitet, wirken sich derartige Eingriffe um so dra-
                                                     a
matischer aus. In der Rangliste auch nur ein paar Pl¨tze aufzusteigen kann einen erheblichen Unterschied
machen, da sich ein normaler Benutzer selten die ganze Liste von Suchergebnissen anschaut (deswegen
erstellt man ja die Rangliste), sondern nur die ersten 10-20 Suchergebnisse, bzw. nur die erste Seite der
Trefferliste. Ein anderes großes Problem ist das Risiko, vom Thema abzuschweifen. Man stelle sich vor,
                                     u                         a
der erstellte Nachberschaftsgraph f¨ r eine Suchanfrage enth¨lt eine Seite, die generell sehr beliebt und
besonders oft verlinkt ist, aber eigentlich uberhaupt nichts mit dem Thema zu tun hat. Einer solchen Sei-
                                            ¨
                                                                                    a
te wird trotzdem ein besonders großer authority Wert zugerechnet, was die Qualit¨t der Suchergebnisse
senkt.




                                                   10
4    Vergleich von PageRank und HITS
                   o
Beide Verfahren k¨nnen interpretiert werden, als Methoden, die das Problem der Relevanzbestimmung
von Internetseiten auf die Bestimmung von Eigenvektoren bestimmter Matrizen reduzieren (wobei andere
                                                            u                    a
andere Anwendungsfelder, auch wenn in diesem Schriftst¨ ck nicht weiter erw¨hnt, nicht ausgeschlossen
sind). Die Entsprechende Matrix ist bei PageRank derart groß, dass sie praktisch nicht zur Laufzeit be-
                                                                                       o
rechnet werden kann, was aber aufgrund der globalen Eigenschaften auch garnicht n¨tig ist. Bei HITS
        a                                                                        a
beschr¨nkt sie sich auf einen kleinen Subgraphen des Internets, welche in Abh¨ngigkeit der Anfrage erst
erstellt wird, auch das errechnen des entsprechenden Eigenvektors muss zur Laufzeit geschehen, wodurch
                                  o           u u                     a
die Laufzeit sicherlich etwas erh¨ht wird, daf¨ r d¨ rfte die Aktualit¨t der Berechnung etwas besser sein.
                                 a                a
PageRank funktioniert zu aufw¨ndig, um ein st¨ndig aktualisiertes Ranking zu bieten, Google updated
                                                                           a    u
z.B. nur einmal alle paar Wochen. PageRank und HITS sind beide anf¨llig f¨ r Manipulationsversuche,
z.B. durch Linkfarmen oder Bannerwerbung, was sich allerdings bei PageRank weniger stark auswirkt
                                                      a
und zudem durch Festlegung des Vektors E einged¨mmt werden kann. Mit diesem bietet sich mit Pa-
                                                                              o
geRank auch eine sehr einfache Methode der Personalisierung, d.h. die M¨glichkeit, den Algorithmus
 u                                                                        a    u
f¨ r einen bestimmten Benutzer anzupassen. Beide Methoden sind anf¨llig f¨ r Abschweifungen vom ei-
                                                     o           a
gentlichen Thema, PageRank funktioniert sogar v¨llig unabh¨ngig von der Suchanfrage, beachtet also
                                           o
nichteinmal Themen. In gewissen Maße l¨st HITS auch das Problem der Polyseme und der Synonyme,
sofern man davon ausgeht, dass dieses Problem durch die Linkstruktur behandelt wird. Die Betreiber von
Internetseiten setzen links ja nicht entsprechend bestimmter Begriffe, sondern entsprechend bestimmter
Themen. Auch dies muß bei PageRank gesondert behandelt werden.


5    Literatur
[1] C. Ding, X. He, P. Husbands, H. Zha, H. D. Simon. PageRank, HITS and a unified framework for link
analysis, Proc. ACM SIGIR Conf. 2001
[2] L. Page, S. Brin, R. Motwani, T. Winograd, The PageRank citation ranking: Bringing order to the
Web
[3] Jon M. Kleinberg: Authoritative Sources in a Hyperlinked Environment. Stanford Digital Library
Technologies Project. Journal of the ACM. 1999.
[4] Amy N. Langville, Carl D. Meyer: A Survey of Eigenvector Methods for Web Information Retrieval.




                                                   11

				
DOCUMENT INFO
Shared By:
Categories:
Stats:
views:11
posted:3/25/2011
language:German
pages:11