Trucchi e consigli per
trovare in Rete ogni cosa
La quantità di informazioni nel Web è ve- A cura di Sean Carroll
ramente enorme e un’indicizzazione ge- Nonostante le loro differenze, per tecnologia e interfaccia
utente, i motori di ricerca su Internet oggi sono più corre-
nerica spesso non basta. Ecco i suggeri- lati tra loro di quanto non lo fossero in passato. I motori
tradizionali indicizzano il Web con programmi appositi,
menti per ottenere il meglio dai quattro gli spider o i crawler, che scandagliano la Rete catalogan-
più importanti motori generalisti; più un do i dati di ogni pagina individuata o i metadati che de-
scrivono il contenuto delle pagine. La frequenza di indi-
elenco di siti che danno accesso al Deep cizzazione di questi programmi è ovviamente importan-
tissima: il Web cresce e cambia molto rapidamente. Col
Web, dove i crawler non arrivano. tempo i crawler hanno migliorato continuamente le loro
284
PC Professionale - luglio/agosto 2003
INTERNET
zati per due motivi: perché non esi-
stono sotto forma di pagine statiche
funzioni, molti di essi sono ora in conosciuto si basa sulla valutazione ma sono elementi dinamici creati in
grado di individuare e indicizzare della “popolarità” del sito, si contano risposta all’interrogazione di un da-
informazioni contenute in un nume- in pratica il numero delle altre pagi- tabase, o perché sono irraggiungibili
ro maggiore di formati di documen- ne Web che puntano al sito valutato. a causa di procedure di autenticazio-
to, per esempio i Pdf, che rappresen- È il modo in cui opera Google, primo ne che un crawler non è in grado di
tano una consistente parte del cosid- motore ad adottare questo criterio di compiere. Questo tipo di informazio-
detto Web invisibile, difficilmente in- valutazione, seguito poi in varie for- ni sono spesso le più aggiornate: ri-
dividuabile dai vecchi motori di ri- me anche dai suoi concorrenti. viste, libri, recensioni, giornali. Per
cerca e quindi poco raggiungibile I più critici sostengono che questa ottenerle bisogna cercare da soli i
dai navigatori. strategia alla fine contribuisca ad ac- contenuti in un database e magari
La quantità di informazioni presenti crescere la popolarità di un sito, piut- pagare per l’accesso.
in Rete è veramente enorme e una tosto che limitarsi a rilevarla, ma il Nelle pagine seguenti abbiamo esa-
semplice strategia di indicizzazione successo di Google è un dato inne- minato quattro motori di ricerca “ge-
generica non è una strada efficiente. gabile. Questo motore è diventato un neralisti” più conosciuti, riportando
Un motore di ricerca deve essere in marchio conosciuto da tutti e chiun- una serie di suggerimenti per otte-
grado di valutare le pagine in modo que almeno una volta l’ha utilizzato. nere il meglio da ciascun di essi; un
tale che i link più comunemente rico- Persino Google, nonostante il favore elenco di siti che fanno entrare nel
nosciuti come utili appaiano per pri- riconosciuto dall’utenza, ha però Deep Web (vedi il riquadro “Ricer-
mi nell’elenco offerto al navigatore a molta strada per migliorare. che di nicchia”); una serie di tool
caccia di informazioni. Ci sono diver- L’ultima sfida è il Deep Web, i dati in software o siti Web di supporto nella
si modi per riuscire nel compito, il più Rete che non possono essere indiciz- ricerca di informazioni.
Come migliorare la ricerca
> Meglio un motore di riserva
Se è vero che il mondo dei motori di locemente ripagato. Vale la pena ve- si sta cercando David Copperfield (il
ricerca è sempre più interconnesso, rificare ogni tanto queste funzioni, libro di Charles Dickens e non il
ciò non significa che tutti i siti diano poiché i migliori motori continuano a mago illusionista) e non ci si ricorda
gli stessi risultati. Due tecnologie di introdurre novità e migliorie. il nome dell’autore, si può impostare
ricerca che accedono alle stesse infor- la ricerca così: “David Copperfield”
mazioni possono dare risultati diversi > Imparare il gergo AND book NOT magic.
se pesano i dati con metodi differenti. Mentre AND, OR, NOT sono i clas-
Quando non si riesce a trovare Conoscere la sintassi del linguaggio sici operatori booleani, alcuni moto-
un’informazione che si pensa sia di- d’interrogazione booleano può aiu- ri hanno una loro libera interpreta-
sponibile nel Web, è meglio provare tare a focalizzare le ricerche. Alcuni zione dei termini. Si può trovare
a cercarla con un altro motore, senza siti consentono l’uso degli operatori ANDNOT al posto di NOT, per
arrendersi. In questo modo, almeno, booleani già nelle maschere di ri- esempio. Alcuni addirittura hanno
ci si tiene aggiornati sui cambiamen- cerca principali; altri richiedono di dei moduli da compilare, già orga-
ti degli strumenti di ricerca. selezionare le opzioni di ricerca nizzati secondo la logica booleana,
avanzate. Si possono sempre mi- in cui basta inserire i termini in box
> Conoscere il motore preferito gliorare i risultati di ricerca usando separati e connessi tra loro da menu
una combinazione di operatori boo- a tendina, le cui scelte sono gli ope-
Ogni sito ha una barra per il browser leani standard AND (che indica che ratori logici booleani.
o un’interfaccia in cui si inseriscono entrambi i termini devono essere
le parole da cercare, ciascuno con presenti nel risultato della ricerca) > Ricerche avanzate
funzioni e particolarità individuali. OR (uno o entrambi i termini devo-
Una volta che si è scelto un motore è no essere presenti) e NOT (il termi- La maggior parte dei motori di ricer-
bene prendersi il tempo per leggere ne che segue al not non deve essere ca, convenzionali e speciali, offrono
le pagine di help ed esaminare le presente nei risultati). metodi alternativi di ricerca nel Web.
funzioni di ricerca più avanzate, le Accanto all’uso dei termini citati Un elenco di directories e una barra
capacità che ha di raffinare le ricer- spesso si ricorre anche all’uso di pa- di ricerca (search bar) sono funzioni
che e qualsiasi altra opzione dedica- rentesi e virgolette per raggruppare ormai standard sulle schermate di
ta agli utenti più evoluti. Questo pic- oggetti, come avviene nelle equa- apertura delle pagine Web. I link per
colo investimento di tempo verrà ve- zioni matematiche. Per esempio, se le opzioni di ricerca avanzate vanno
285
PC Professionale - luglio/agosto 2003
INTERNET
Ricerche di nicchia gnato sul Progetto di una directory aper- ni e la storia delle varie amministrazioni.
ta per bambini e teenager (Kids and
> Asiaco teen Open Directory Project) e conta > HighWire
http://search.asiaco.com 17.549 link. http://highwire.stanford.edu
Un indice ricercabile degli argomenti atti- Si possono cercare oltre dodici milioni di
nenti all’Asia che si trovano su Internet. > EBizSearch articoli completamente indicizzati in più
http://gunther.smeal.psu.edu./index.html di 4.500 riviste a carattere medico, gli ab-
> AskERIC Qui si possono fare ricerche generiche stract, come minimo, sono sempre gratui-
www.askeric.org sul Web come di articoli accademici e ti. E oltre 360 siti di giornali offrono con-
The Educational Reasources Information commerciali sulle varie tematiche dell’e- tenuti gratuiti (anche se relativi ai numeri
Center (ERIC) un sistema di informazioni Business. passati).
pubblico creato dall’Education Depart-
ment degli USA. > eLibrary > Hoover’s Online
http://ask.elibrary.com www.hoovers.com
> Ask Jeeves Kids Archivi ricercabili di libri, articoli, quoti- Questo servizio in abbonamento a paga-
www.ajkids.com diani, trascrizioni, immagini e mappe. mento rende disponibili oltre 6.000 pubbli-
Ogni bambino dovrebbe avere questo Anche dopo il periodo di prova di sette cazioni per il mondo business disponibili
maggiordomo ad aiutarlo nelle ricerche giorni, si possono avere gratis degli ab- tramite Factiva, una società di Down Jones
su Internet (debitamente filtrate ma pur- stract di articoli, ma i file completi sono a & Reuters. Si possono fare ricerche per pa-
troppo solo in lingua inglese). pagamento. role chiave, nome di azienda e simboli.
> Biography Resource Center > Philosophy Research base > IncyWincy
www.galegroup.com/BiographyRC www.erraticimpact.com www.incywincy.com
Permette di fare ricerche sulle persone in C’è un po’ di filosofia ovunque in questo Lo spider di IncyWincy scandaglia il co-
base alla data di nascita o di morte, la na- sito, ma il cuore è dato da un motore di siddetto Web invisibile.
zionalità, l’etnia, il tipo di lavoro che svol- ricerca che trova i libri su argomenti filo-
ge o il genere (maschile, femminile). sofici in partnership con il sito di Ama- > JSTOR
zon.com. www.istor.org
> CiteSeer I ricercatori universitari strabilieranno.
http://citeseer.nj.nec.com/cs > FindArticles Questa collezione di archivi contiene rivi-
Qualcuno ha mai citato quel documento www.findarticles.com ste accademiche piene di immagini e bene
nascosto che avete scritto sulla nanotec- Un utile motore di ricerca consultabile organizzate, che spaziano dalla botanica al
nologia? Qui potrete scoprilo. Infatti ven- gratuitamente che indicizza gli articoli mondo degli affari. È necessario autenti-
gono ricercati non solo i documenti a ca- pubblicati da oltre 300 fonti diverse. carsi tramite un’istituzione accademica.
rattere scientifico indicizzati ma anche le
citazioni che essi contengono. GPO Access > LexisNexis Academic
www.access.gpo.gov/su_docs/multidb.html http://web.lexis-nexis.com/universe
Cool4Kids Tutto sulla pubblica amministrazione Un database full-text a pagamento di
www.cool4kids.com americana con accesso a database multi- news, informazioni finanziarie, legali e
Questo motore per soli bambini è dise- pli per consultare statistiche, pubblicazio- amministrative.
usati per definire, limitare o espande- no di usare ricerche già preparate per bage out”: se si inserisce spazzatu-
re i termini di ricerca. Molti siti gui- migliorare i risultati, riformulando ra si ottiene spazzatura. Ciò signifi-
dano attraverso l’intero processo con l’interrogazione iniziale, così come ca che i motori usano i termini che
i loro file di aiuto. Si possono usare gli funzioni di autocompletamento (per avete inserito per svolgere le ricer-
operatori logici booleani (con i moto- suggerire modi di completare frasi che e se commettete errori di batti-
ri che li supportano), oppure si posso- parziali di ricerca) e di integrazione tura i risultati saranno privi di senso
no sfruttare i moduli per le ricerche con le news. Le funzioni di ricerca e poco utili. Quando ottenete risul-
speciali. Questi ultimi in certi casi avanzate di Google sono facili da ge- tati strani controllate l’ortografia.
consentono di abilitare filtri per le pa- stire e consentono di mettere filtri a
role derivate o tronche (per esempio parole, domini, siti, lingue, oltre che > Sbagliare i termini
cercando color* per avere tra i risul- ai filtri per i bambini.
tati le parole: colore, colori, e colora- Il Web è pieno di errori ortografici,
to). I risultati si possono poi raffinare > Attenzione alle parole in qualche caso può anche non es-
o presentare in un certo formato. Per sere una cattiva idea “sbagliare”
esempio, le preferenze avanzate per- I motori di ricerca non si sottraggo- volontariamente una parola. Ovvia-
sonalizzate di AllTheWeb permetto- no alla legge del “Garbage in, Gar- mente dipende dal tipo di ricerca
286
PC Professionale - luglio/agosto 2003
INTERNET
che si sta compiendo. Se per esem- risultati servendosi di un’interfaccia provenienti da siti differenti, spesso
pio cercate “DAN ricombinante” al avanzata o con l’uso di operatori hanno il difetto di presentare troppe
posto di “DNA ricombinante” diffi- booleani, altri attraverso simboli co- informazioni con un’interfaccia che
cilmente troverete materiale per me il segno meno davanti alla paro- non è di grande aiuto. Cosa ancora
una ricerca sulla genetica, ma se la chiave da escludere. più importante essi non possono tra-
cercate “Avril Lavinge” al posto di durre il linguaggio d’interrogazione
“Avril Lavigne” i risultati si faranno > Scegliere l’ampiezza nella Rete nel formato specifico richiesto da cia-
vedere. Provare per credere. scun sito.
Se non si riescono a trovare buoni ri- Anche se i siti di ricerca individuali
> Ridurre i risultati sultati con i motori che normalmente sono in continuo miglioramento, nes-
si utilizzano più spesso, perché non suno è perfetto e nessuno è in grado
Restringere il campo di ricerca è uti- provare con i metasearch? Sono stru- di indicizzare l’intera Internet. Se non
le se i risultati sono troppo numerosi menti che analizzano i risultati otte- si è riusciti ad avere buoni risultati
e poco coerenti. In questo caso basta nuti da una serie di motori. Detto concedete un tentativo a un sito di
dare un’occhiata a qualche link tra molto francamente la metaricerca metaricerca come Dogpile, IxQuick,
quelli non pertinenti e cercare una non è la nostra strada preferita. I me- MetaCrawler, o Mamma. com, o uno
parola chiave comune da escludere tamotori non hanno alle spalle la lun- strumento come Copernic (qui recen-
per restringere i risultati. Molti mo- ga storia dei sistemi classici, e dal sito). HotBot, che in genere non vie-
tori consentono di escludere alcuni momento che aggregano risultati ne considerato un sito di metaricerca,
cesso a più di dodici milioni di citazioni a > SearchMil.com
> MergentOnline carattere medico, a partire da metà degli www.searchmil.com
www.mergentonline.com anni Sessanta in poi. Ricerche nel dominio .mil.
Un’integrazione di database come l’Indu-
stry Manual di Moody, gli archivi EDGAR > O’Reilly Network Safari Bookshelf > SpeechBot
(Electronic Data Gathering, Analysis and http://safari.oreally.com http://speechbot.research.compaq.com
Retrieval) e Company DataDirect (Usa e Contiene le versioni elettroniche di centi- Un inventivo della Hewlett Packard ha
international). naia di libri tecnici editi da un editore ideato un sito di ricerca che indicizza
prestigioso di pubblicazioni informatiche, 15.590 ore di trasmissioni sul Web, com-
> NatureServe Explorer che coprono oltre 20 categorie, dal mondo prensive di audio e di trascrizioni.
www.natureserve.org/explorer Business al linguaggio Xml.
Qui si possono cercare informazioni su > 10K Wizard
piante, animali e ambienti ecologici relati- > S&P Netadvantage www.tenkwizard.com
vamente alle zone degli Stati Uniti e del www.netadvantage.standardpoor.com Fa ricerche nella banca dati EDGAR
Canada. Un buon posto per cercare informazioni della SEC (Secure Exchange) per trova-
sui trend degli investimenti, dei mercati e re gli archivi in tempo reale.
> The On-Line Encyclopedia of Integer delle società in gioco. Tuttavia occorre
Sequences un’autenticazione con password e user ID > VolunteerMatch
www.reasearch.att.com/-njas/sequences anche solo per accedere al sito. www.volunteermatch.org
Questo è un sito strano. Provate a digitare “Get out. Do good”. Già il logo dice tut-
una serie di numeri e vi sarà dato il razio- > SearcheBooks.com to. Si può cercare per area tematica, in-
nale che c’è dietro ciascun numero. Ab- www.searchebooks.com teressi e programmi.
biamo provato “8549176320” – i numeri Un indice a testo pieno degli e-book, cioè
erano in ordine alfabetico in base alle let- i libri elettronici. > World News Connection
tera iniziale dell’alfabeto inglese – e il sito http://wnc.fedworld.gov
ha dato la risposta esatta. > SearchEdu.com Un servizio a pagamento di aggregazio-
www.searchedu.com ne di news estere gestito da Diparti-
> PublicLibraries.com Ricerche all’interno del dominio .edu. mento del Commercio USA. Volete sco-
www.publiclibraries.com prire le ultime sulle ruberie in Uganda?
Tutte le biblioteche online: quelle pubbli- > Search Engine Colossus Questo è il posto giusto.
che, di Stato, universitarie, presidenziali, ma www.searchenginecolossus.com
sempre relative agli Stati Uniti d’America. Per fare ricerche su tutti i search engine > Yahooligans!
del mondo nella lingua che desiderate. www.yahooligans.com
> PubMed Uno dei migliori siti di ricerca orientati
www.ncbi.nlm.nih.gov/entrez/query.fcgi > SearchGov.com ai bambini e un eccellente portale an-
Questo servizio della Biblioteca Nazionale www.searchgov.com che per i più giovani.
di Medicina degli Stati Uniti fornisce ac- Ricerche all’interno del dominio .gov.
288
PC Professionale - luglio/agosto 2003
INTERNET
ha una nuova interfaccia accattivante Una ricerca sulla Svizzera ha pro- no create solo come risposte tempo-
che offre una specie di metaricerca dotto qualche dozzina di link ai mo- ranee alle interrogazioni degli uten-
laterale. Senza dover riscrivere la tori di ricerca locali, incluso un sito ti. Molti database, poi, richiedono
propria interrogazione si fa un clic sui in lingua giapponese. Chi è a con- una user id e una password che
pulsanti presenti per ottenere i risul- tatto con il mondo della scuola può complica il lavoro a spider e robot.
tati della ricerca in AllTheWeb, Goo- trovare risorse utili anche in Si può accedere a questi database
gle, Inktomi o Teoma. www.iecc.org per entrare in contat- attraverso portali specializzati nel
to con gli studenti di tutto il mondo. fornire accesso al Deep Web. Tra
> Donde esta? questi vi sono CompletePlanet
> Vedere l’invisibile (www.completeplanet.com) e Info-
Se la ricerca è in una lingua specifi- Mine (infomine.ucr.edu).
ca o la si vuole limitare alla propria Molti pensano di poter trovare qual-
realtà locale o si ha bisogno della siasi informazione digitale, utiliz- > Biblioteche online
traduzione, sono a disposizione una zando i motori di ricerca. Non è ve-
quantità di strumenti pronti ad aiu- ro. Esiste un’intera categoria di pa- Le biblioteche restano sempre una
tare. Molti motori, primo tra tutti gine che non hanno link che punta- grande fonte di informazioni, anche
Google, consentono di impostare le no verso di esse o che non sono in- in quest’era online. Ma oggi molti
preferenze in modo da avviare la ri- dicizzate perché contengono dati degli indici usati in passato in versio-
cerca nella lingua prescelta. Ci sono come immagini, file musicali e Pdf, ne cartacea, sono disponibili online.
anche siti di ricerca specifici per che spider e robot non indicizzano E cosa ancora più importante, lo so-
paese e filtri che restringono la ricer- (molti motori convenzionali negli ul- no anche le riviste e le recensioni dei
ca in base alla lingua e alla nazione. timi anni hanno però fatto progressi quotidiani che senza dubbio molti di
in questo campo). La parte più am- voi avranno usato in passato per le
> Le proprie origini pia del cosiddetto Deep Web consi- ricerche scolastiche. Molte bibliote-
ste di database che gli spider non che accademiche e pubbliche stanno
Search Engine Colossus (www.sear- possono indicizzare. Uno spider può convertendo gradatamente l’accesso
chenginecolossus.com) ha una di- leggere l’indirizzo di un database alle loro opere dalla carta all’online,
rectory di 195 paesi e 38 territori. ma non può decifrarne il contenuto almeno negli Stati Uniti. E il futuro
perché le pagine dinamiche vengo- delle versioni stampate di queste
pubblicazioni è in seria discussione.
Come le biblioteche hanno pagato in
passato per avere libri e periodici,
I motori di ricerca italiani oggi esse pagano un prezzo per la
versione online corrispondente. Per
I principali motori di ricerca italiani si av- un team di persone, a cui affianca la tecno- questa ragione, l’accesso a tali docu-
valgono di engine internazionali (Google, logia di Inktomi. Per il resto ci sono altre menti è ristretto e per poterli consul-
AltaVista, Yahoo!, Inktomi), e quelli svilup- tecnologie, come il Trovatore che indicizza tare occorre un permesso. Molte bi-
pati in Italia si contano sulla punta delle di- fino a 40 milioni di pagine Web italiane, o blioteche forniscono un accesso re-
ta. Il più conosciuto è il motore di ricerca il motore pay per click di Godado, ma ad moto ai loro utenti tramite indirizzi
Arianna, realizzato nel 1996 nei laboratori esse manca la massa critica per competere Ip o username e password. Solita-
Olivetti di Pisa per il portale di Italia Onli- con i “grandi” a livello internazionale. mente gli utenti devono configurare
ne, che arriva a indicizzare fino a 44 milio-
ni di pagine Web, 8 milioni d’immagini,
55.000 file video e un milione di file Mp3.
Quali tecnologie usano i motori italiani
Per le ricerche nel web Arianna si avvale Italy Ricerche nel Ricerche Directory Pay For Pay per click
di Google. Virgilio ha sviluppato in proprio Web locale nel www Insertion
le directory e ha recentemente introdotto i Google.it Google Google ODP Adwords
servizi di segnalazione dei siti a pagamen- Virgilio.it Google Google Virgilio *
to. I siti che pagano per comparire nelle ri- Arianna.iol.it Arianna Google Own / Fast
cerche sono riportati all’inizio dell’elenco- MSN.it Inktomi Inktomi / Lycos MSN Inktomi / Lycos OV
dei risultati, sotto la dicitura “link sponso- Altavista.it Altavista Altavista Looksmart * Altavista OV
rizzato”. Per le ricerche nel Web ricorre an- Yahoo.it Google Google Yahoo.it * Espotting
ch’esso a Google. Un’altra tecnologia ita- Tiscali.it Fast Fast Fast
liana era quella di Janas, utilizzato da Ti- Lycos.it Fast Fast Lycos.it * Fast OV/ES
scali prima che diventasse un network eu- Supereva.it Google Google Supereva Godado
ropeo. Oggi al suo posto c’è Fast.
Rielaborazione su fonte di Webmasterworld.com OV = Overture
MSN.it ha sviluppato internamente una se-
La tabella riporta i motori italiani elencati in ordine di traffico generato ES = Espotting
rie di directory aggiornate localmente da
* = inserimento
dei siti a pagamento
290
PC Professionale - luglio/agosto 2003
INTERNET
Come abbiamo valutato i siti re sul più conosciuto www.whois.
org. Scoprire chi c’è dietro un sito è
Tutti i motori esaminati producono risultati cerche di prossimità. un trucco prezioso, specie quando si
congruenti, abbiamo quindi privilegiato come Alcuni siti permettono di specificare dove si cercano informazioni finanziari. In
criteri di valutazione la facilità d’uso, la ric- vuole ricercare. In questo caso si parla di op- alcuni casi si possono considerare
chezza di funzioni e la flessibilità. Un punteg- zioni di ricerca mirate a specifici domini o siti, anche servizi di ricerca a pagamento
i
gio molto alto per l’interfaccia significa assen- o all’interno di URL o nei titoli e di ricerche li- come DQM2 Deeep Query Manager
za di annunci a pagamento non pertinenti e mitate a certi tipi di file o di lingue. Abbiamo di BrightPlanet che aiuta a trovare,
di altri elementi estranei, oltre che risultati fa- valutato i siti anche in base alle opzioni di mi- classificare e gestire le informazioni.
cili da scremare e un sistema di aiuto efficace. glioramento dei risultati, come la possibilità
Un sito che riporta una buona flessibilità di ri- di rifinire la ricerca con nuove parole chiave o > Uno sguardo al futuro della
cerca è un sito che consente di specificare di visualizzare le versioni memorizzate nella
l’oggetto della ricerca utilizzando funzioni co- cache del motore di ricerca e di associare a
ricerca su Internet
me gli operatori booleani, i caratteri jolly e ri- un particolare risultato pagine simili. Un motore di ricerca esegue i suoi
compiti in un modo puramente
Interfaccia Flessibilità di Ricerche Miglioramento Punteggio ••••• molto buono
= eccellente meccanico. Ricerca il testo in un do-
ricerca mirate dei risultati •••• = cumento, tiene conto di quanto
AlltheWeb ••• •••• ••••• ••• •••• ••• = buono spesso le parole sono ripetute e
Aiol •• •• • •• •• •• = discreto quindi applica regole per la valuta-
Google ••••• ••• ••••• •••• •••• • = scarso zione (ranking). Un buon motore di
ricerca ha un’interfaccia facile da
MSN ••• ••• •••• ••• ••• usare, deve documentare un enor-
Yahoo! ••• ••• •••• ••• ••• me numero di pagine Web e aggior-
nare i link frequentemente. Ciò che
però non può fare è capire il signifi-
la parola Godiva, (cercavamo il mar- cato di una ricerca a un livello uma-
chio dei famosi cioccolatini). Ma se no. Non può fare associazioni tra
il loro browser e fornire il loro codice noi avessimo voluto cercare informa- parole e argomenti nel modo in cui
d’iscrizione alla biblioteca per avere zioni sull’origine anglosassone del lo facciamo noi e quindi perde pre-
accesso ai database da casa. Alcune nome Lady Godiva e sulla sua storia? cisione nel recuperare le informa-
istituzioni consentono anche ai non Digitando Godiva nei campi di ricer- zioni. Questo è il motivo per cui ci
iscritti di utilizzare le loro risorse on- ca di Google si ottengono solo risul- siamo abituati a fare acrobazie con i
line; altri (specialmente le bibliote- tati pertinenti ai cioccolatini, ma se si vocaboli e poi ci siamo accontentati
che universitarie) restringono l’ac- digita il nome per esteso Lady Godi- di pochi utili link invece di nuotare
cesso o l’uso ai clienti registrati. Infi- va ecco che si trova la pagina con il in un mare di migliaia se non milio-
ne molte biblioteche hanno pagine risultato cercato, cioè chi era Lady ni di risultati del tutto inutili.
Web che descrivono le risorse online Godiva e l’origine del suo nome Potrà migliorare questa situazione?
disponibili, dando un’idea degli ar- (Godgifu). A seconda della parola Di fatto la risposta a questa doman-
gomenti e delle aree coperti dalle lo- utilizzata si ottengono migliaia di ri- da ha un nome: Latent Semantic In-
ro opere online. sultati da una ricerca per singola pa- dexing (LSI). Si tratta di una tecno-
I database delle biblioteche sono rola chiave. Aggiungendone più di logia di ricerca che sfrutta un algo-
creati da editori ben conosciuti e so- una non si limita necessariamente il ritmo per valutare le associazioni tra
no valutati molto attentamente prima numero dei risultati tra i quali cerca- parole. Affiancando la tecnologia
di essere acquistati dalle varie istitu- re, ma si possono evidenziare i risul- LSI a quelle già esistenti si possono
zioni bibliografiche. tati più importanti tra i primi. ottenere livelli più alti di compren-
sione dei documenti consentendo
> Utilizzare più di una parola > Valutare se un’informazione anche la convergenza di numerosi
indici di diversi database.
chiave è valida Come i motori tradizionali, la tecno-
Quasi un terzo di tutte le ricerche so- Ci sono alcuni tool che sono in grado logia LSI esamina le parole contenu-
no interrogazioni basate su un termi- di dire molto sull’informazione tro- te nei documenti come opposti a pa-
ne solo. Anche se i motori sono di- vata con un motore e che permetto- role di uso comune come and e the.
ventati abbastanza intelligenti da ac- no di capire se essa sia valida o me- Documenti contenenti molte parole
cettare molte ricerche basate su no. Un buon criterio è controllare chi simili vengono considerati semanti-
un’unica parola chiave, in questi casi possiede il sito che il motore ha indi- camente vicini, mentre quelli con
essi tendono a mettere per primi i ri- cizzato, un’operazione che si può fa- poche parole uguali sono valutati
sultati più popolari. Per esempio nei re andando su www.whois.sc, oppu- semanticamente lontani. LSI quindi
nostri test una delle ricerche che ab-
biamo condotto con ciascun motore
utilizzando solo una keyword è stata
292
PC Professionale - luglio/agosto 2003
INTERNET
mappa per così dire la collocazione una quantità di fonti. Alcune, come
Le ricerche nel Web dei documenti all’interno di uno l’history del browser, possono essere
AOL spazio multidimensionale, con una facilmente cancellate (sebbene di-
Netscape dimensione per ogni parola indice, struggere determinate ricerche può
Overture* Lycos Hot Bot raggruppando i documenti semanti- richiedere più di una semplice can-
camente vicini. Le trasformazioni cellazione della cache). Altre tracce,
matematiche rendono questo spazio come i log dei server in un’azienda,
AlltheWeb accessibile e il risultato è una ricerca se si utilizzano i motori dal posto di
Google
Inktomi che trova pagine correlate anche se lavoro, o i log del proprio Internet
queste non condividono le stesse pa- provider e della stessa società che fa
AltaVista Teorema role chiave. il motore di ricerca, non sono facil-
Per chi vuole essere aggiornato su mente cancellabili.
questa nuova area di sviluppo della Anche le biblioteche si trovano ad
ricerca ecco una serie di indirizzi affrontare la versione aggiornata di
Yahoo! utili: un problema vecchio: cosa fare in
Web merito alle richieste di informazioni
Ask
http://javelina.cet.middlebury.edu/ sulle abitudini dei prestiti dei clienti
lsa/out/cover_page.htm provenienti dall’autorità pubblica.
MSN
http://lsi.reasearch.telcordia.com/ Per esempio quando l’applicazione
www.psych.nmsu.edu/pfoltz/cois/ filtering- della legge richiede informazioni su
cois.html. una ricerca condotta al computer da
Open
un cliente della biblioteca. Questo
WiseNut LookSmart
Directory > Non si è soli quando si cerca non è un problema per gli utenti oc-
casionali che non devono produrre
Metodo principale di
sul Web alcun tipo di identificazione, ma se si
raccolta dei dati
Crawler Origina dati principali La ricerca come qualsiasi altra atti- usa una password per collegarsi in
Indici manuali Origina dati secondari vità legata al computer e a Internet remoto bisogna considerare che tipo
Nessuno Origina elenchi a pagamento * Solo elenchi a pagamento può essere tracciata. Un hacker può di informazioni personali si lasciano
ricostruire le ricerche sul Web da dietro di sé.
I search Engine
> AllTheWeb
Fast Search & Transfer ASA
www.alltheweb.com mente migliore, e una ricerca velo- Le funzioni avanzate non sempre
Punteggio: ••••• ce può essere una ricerca affrettata.
Diversi dei nostri tentativi di inter-
seguono le convenzioni: per esem-
pio si usano le parentesi per indica-
Ciò per cui è famoso AllTheWeb è rogazione hanno prodotto risultati re l’operatore booleano OR già nella
l’ampiezza del suo indice, ma più irrilevanti, riportando siti individua- pagina principale (solitamente com-
grande non vuole dire necessaria- ti in base a parole chiave nei loro pare nella pagina della ricerca
metatag. Va detto però che le nu- avanzata). Fortunatamente la pagi-
merose opzioni avanzate di Al- na di aiuto è chiara ed estesa. Al-
lTheWeb e la sua abilità nel rifinire i lTheWeb analizza anche la frase di
risultati di ricerca sono di aiuto agli ricerca utilizzata, reimpostandola
utenti più esperti. con le virgolette ed eliminando pa-
Il sito è ben personalizzabile con role come l’articolo the per ottenere
opzioni sofisticate come le ricerche migliori risultati. Si può disattivare
per pagine che puntano a un deter- tale funzione se lo si desidera, attra-
minato sito, o nelle Url o nei titoli verso il pulsante Customize, ma noi
delle pagine e le ricerche limitate abbiamo trovato che essa migliora
dalla dimensione della pagina web. considerevolmente i risultati delle
C’è un box di verifica per le ricerche query effettuate con il linguaggio
per frasi esatte e un’opzione di per- naturale.
sonalizzazione è quella di rendere AllTheWeb dispone di etichette di
accessibile la ricerca avanzata da ricerca specifiche che compaiono
menu a tendina già nell’interfaccia come menu pop up ovunque, dedi-
principale del programma. cate alle news, alle immagini, ai file
293
PC Professionale - luglio/agosto 2003
INTERNET
Le toolbar di ricerca
Con l’aiuto di semplici programmi aggiuntivi e di strumenti niera e un menu a tendina permette di saltare ai subsiti di
specifici per il Web scovare le informazioni diventa più sem- Google, come Google News dove si possono cercare le ulti-
plice. Per esempio le barre con gli strumenti di ricerca, add me notizie
on per i browser, danno accesso ai principali motori in modo Google, http://toolbar.google.com. Punteggio: •••••
molto immediato. Le applicazioni di metaricerca interrogano
diversi motori in una volta. E le applicazioni di ricerca visua- > Teoma Search Bar offre un piccolo gruppo di strumenti
le forniscono un metodo intuitivo per individuare i concetti che non sono disponibili con Google. Per esempio se si capita
visualizzando i risultati sotto forma di mappe invece che di per caso su un sito che si ritiene molto interessante è possibile
elenchi di indirizzi. inviare al proprio indirizzo e-mail l’indirizzo di quella pagina.
Diversi siti, incluso Google, Teoma e Yahoo! offrono toolbar Con un altro pulsante si può consultare il dizionario on-line
di ricerca personalizzate. Ciascuna aggiunge una serie di Merriam-Webster. La Search Bar di Teoma non è però in gra-
strumenti al browser e box di testo dove compilare le inter- do di limitare le ricerche per dominio o pagine tradotte.
rogazioni per il motore di ricerca al quale si appoggiano. http://sp.ask.com/docs/teoma/toolbar. Punteggio: •••••
> Google Toolbar è il migliore del gruppo. Consente di av- > Molto di più di una toolbar di ricerca, Yahoo! Compa-
viare due tipi di ricerche. Il pulsante Ricerche nel Web nion dà accesso a Yahoo! e-mail, offre un account su Yahoo!
(Search Web) vi dà le pagine frutto di una ricerca generica, Shopping, l’accesso al sito di Yahoo! News e molto altro an-
mentre il pulsante Search Site (Cerca nel sito) limita la cora. Si può trasformare l’applicazione in una toolbar per
query al dominio in cui vi trovate. navigare in Yahoo! Finance oppure configurarla solo per le
Le funzioni di ricerca nel sito spesso fanno un lavoro miglio- ricerche nel Web. Questa configurazione di Yahoo! Compa-
re di tanti altri motori internazionali. Basta selezionare lo nion non può tradurre le pagine in altre lingue, ma offre co-
strumento evidenziatore e Google fa risaltare le ultime frasi munque molte delle opzioni disponibili in Google. Per
cercate all’interno di ciascuna pagina Web. Basta fare clic su esempio la si può utilizzare per consultare on-line l’Ameri-
un termine di ricerca e Google lo trova subito all’interno can Heritage Dictionary
della pagina corrente. Si possono tradurre siti in lingua stra- http:// companion.yahoo.com. Punteggio: •••••
video e audio e Ftp. Le ricerche nel- to numerosi risultati. concorrenti, pur restando sempre in
le news sono personalizzabili sele- AllTheWeb consente di aggiungere testa al gruppo nelle funzioni di mi-
zionando tra le varie opzioni dispo- un pulsante di ricerca a Internet Ex- glioramento delle ricerche.
nibili: internazionali, statunitensi, plorer, una barra laterale in Netsca- Le opzioni di personalizzazione
locali, business, e così via. pe e un pannello con l’hotlist nel vanno dalla lingua al filtro dei con-
Quando AllTheWeb trova file multi- browser Opera. I risultati di Al- tenuti, al numero di risultati per pa-
mediali, ne visualizza i link in fondo lTheWeb non sono però straordina- gina, ma non si possono aggiunge-
alla pagina dei risultati; noi non ab- ri. Nelle prove che abbiamo esegui- re all’interfaccia principale né i me-
biamo mai trovato per caso un link to il programma si è mostrato inade- nu a tendina di ricerca avanzata, né
audio, anche quando le ricerche guato nel trovare le home page e i box di controllo. In compenso la
sotto l’etichetta audio hanno prodot- anche le ricerche in linguaggio na- pagina per la ricerca avanzata di-
turale hanno dato problemi. In ge- spone di svariate opzioni di ottimo
nerale abbiamo ottenuto i miglior ri- livello, incluse le ricerche booleane,
sultati con interrogazioni specifiche le ricerche per formati di file, data e
e basate su più parole. dominio Internet. Ci sono anche un
piccolo gruppo di ricerche non elen-
> Google cate tra quelle specializzate riporta-
www.google.com te nel menu principale, come le ri-
Punteggio: ••••• cerche per pagine simili e per ter-
mini trovati nei titolo, nell’indirizzo
Il talento di Google nel trovare qual- Internet o le ricerche di testo in una
siasi cosa stiate cercando ha qualco- pagina, o in altre pagine che punta-
sa di misterioso. Nelle nostre prove no allo stesso Url. Tra le ricerche
Google ha dato costantemente buoni specializzate ci sono: Immagini,
risultati; non stupisce che fornisca i Newsgroup (c’è un immenso archi-
risultati delle sue ricerche a molti al- vio di forum di discussione dei
tri motori. Ci siamo sorpresi, però, gruppi usenet) Directory (i contenu-
del fatto che Google non abbia di- ti sono organizzati per argomenti,
staccato in modo così marcato i suoi come fa Yahoo!) e le News.
294
PC Professionale - luglio/agosto 2003
INTERNET
> Se si cambia continuamente motore di ricerca una tool > In tema di metaricerche, strumenti come Grokker e Kar-
bar specifica di un sito non è di molto aiuto, in questo caso tOO offrono un tipo completamente diverso di interfaccia di
c’è bisogno di un’applicazione di metaricerca. Copernic ricerca e visualizzano i risultati non come elenchi sequenziali
Agent Basic è un tool scaricabile gratuitamente che dà ac- ma come mappe. Groxis non ha ancora perfezionato la ver-
cesso ad oltre 90 motori di ricerca e altre fonti di informazio- sione definitiva di Grokker, al momento disponibile in una
ni presenti in rete. Quando abbiamo eseguito i nostri test versione beta al prezzo di 99,95 dollari. Un prezzo che può
tuttavia tra di esse non abbiamo trovato Google per un pro- sembrare eccessivo per un’edizione di collaudo. Viene de-
blema tecnico. Copernic intende rendere di nuovo operativo scritto dalla società produttrice come un tool di personal data-
Google ma non ha detto quando. Le 90 fonti attualmente of- mining, ovvero di gestione dei dati personali, piuttosto che
ferte sono divise in 10 categorie, ciascuna copre un diverso come strumento di ricerca vero e proprio. Il programma rag-
tipo d’informazione. Una categoria chiamata The Web, per gruppa le informazioni in modo intelligente per aiutare a ca-
esempio, contiene 17 motori di ricerca, inclusi Aol, Msn e pire i concetti correlati a una determinata frase di testo.
Yahoo!; cliccando su di essa e digitando una parola chiave La preview di Grokker fornisce un nuovo front end per tre di-
s’interrogano simultaneamente tutti e 17 i motori. Con una versi motori di ricerca: Northern Light (il cui proprietario, Di-
seconda categoria si possono cercare i siti Web in un singolo vine, è fallito per bancarotta, e quindi questo non risulta di
paese straniero, scelto all’inizio, altre forniscono accesso a grande utilità), Open Directory Project (www.dmoz.com) e
indirizzi e-mail e newsgroup. Le ultime sei categorie girano Teoma. Basta scegliere uno dei tre e inserire una frase da ri-
nel Web alla ricerca di una varietà di articoli. Copernic rac- cercare. Grokker organizza i risultati in categorie basate sulla
coglie i suoi risultati in una pagina singola, eliminando i rilevanza. Una ricerca sullo spam, per esempio, è stata suddi-
link doppi. Con un clic si possono rimuovere i link non più visa in spamming, anti-spam, e spam-laws. Grokker visualiz-
attivi dall’elenco, salvare le pagine sull’hard disk per poter- za queste categorie come cerchi colorati su uno sfondo nero.
le consultare con calma off-line o inviare per e-mail gli indi- Cliccando su una categoria si evidenziano delle subcategorie
rizzi che si vogliono tenere da parte. che a loro volta includono altre sotto-categorie e così via.
Ci sono due versioni a pagamento di questo tool: Copernic Grokker richiede un po’ di abitudine all’uso, ma può essere
Agent Personal (29,95 dollari) e Copernic Agent Professio- un modo intuitivo per fare ricerche per concetti.
nal (79,95 dollari) che danno accesso a oltre mille fonti www.groxis.com. Punteggio: •••••
d’informazioni basate su Web per 120 categorie.
www.copernic.com. Punteggio: ••••• > KartOO è un altro servizio on-line di metaricerca che vi-
sualizza i risultati come mappe tematiche. Inserite una frase
> Un altro strumento che opera seguendo gli stessi princi- di ricerca e il programma crea una mappa in cui gli argomen-
pi di Copernic è FirstStop WebSearch, ma la versione base ti (le parole chiave) e i siti Web sono presentati in ordine
del prodotto, meglio nota come Standard Edition, dà acces- d’importanza. Spostandosi con il mouse su ciascun argomen-
so a solo 18 motori di ricerca in due categorie (WebSearch e to sulla mappa vengono mostrati i siti correlati, mentre muo-
News). La Deluxe Edition (24,95 dollari per l’acquirente fi- vendosi su un sito viene mostrata la parola chiave rilevante.
nale) contiene i link a oltre 50 motori divisi in cinque cate- Se incontrate un sito che vi piace potete fare clic con il mouse
gorie. La Visual Edition (79,95 dollari) fa un passo in più ri- sulla sua icona per aprirlo in una finestra separata del brow-
spetto a Copernic, mostrando esempi visivi delle pagine dei ser. Se vi muovete con il mouse su un argomento, compaiono
siti già nei risultati. Nessuno di questi prodotti offre così i segni più e meno. Il segno più corrisponde a un approfondi-
tante funzioni di postricerca come Copernic, ma ciò signifi- mento, il segno meno vi porta indietro da quell’argomento a
ca anche che l’interfaccia di FirstStop è meno ingombrante tutti gli altri disponibili. KartOO può apparire più intuitivo di
e più facile da usare. Grokker ma questa è una questione di gusti personali.
www.firststopwebsearch.com. Punteggio: ••••• www.kartoo.com. Punteggio: •••••
Google migliora i risultati di ricerca pressoché tutti i risultati di Google
controllando che le parole siano di- includono l’opzione di visualizzare
gitate in modo esatto e offrendo un le versioni delle pagine memorizza-
aiuto a proposito. I termini più co- te nella cache del motore, che tor- Ciò che lo rende superiore agli altri
muni come what, of, e is vengono nano utili quando un link non fun- è che i risultati delle pagine web so-
ignorati. Si può forzare il motore a ziona più o un sito non è più dispo- no posti sempre in alto alla pagina,
riconoscere una parola anteponen- nibile. Google fornisce anche la tra- tranne rare eccezioni. I link sponso-
do a essa il segno +. La pagina di duzione delle pagine in alcune lin- rizzati infatti sono espressi sotto for-
aiuto che è un po’ troppo estesa per gue straniere. ma di piccoli box di colore diverso
un visitatore frettoloso, illustra scor- Nelle nostre ricerche comunque in alto alla pagina dei risultati, o
ciatoie per rendere le ricerche più Google si è sempre distinto: sia vengono posizionati ai lati dove non
efficaci, incluse quelle nei titoli o quando si trattava di trovare home danno fastidio, sebbene il loro gra-
nelle Url, guardando ai siti correlati page specifiche sia quando c’erano do di pertinenza sia sempre molto
o solo nelle pagine cache. Infatti ricerche complesse con più termini. elevato.
296
PC Professionale - luglio/agosto 2003
INTERNET
> MSN
Microsoft. Corp. za solo i siti sponsorizzati più rile- > Yahoo!
www.msn.com vanti. Quando abbiamo provato a www.yahoo.com
Punteggio: ••••• cercare McDonald’s+Wireless, per Punteggio: •••••
MSN sta guadagnandosi lentamen- avere informazioni sugli hot-spot
te il nostro VIP: è in grado di restrin- del servizio di accesso a Internet in Yahoo! ultimamente ha migliorato in
gere le ricerche a domini particolari, wi-fi offerto dalla catena di fastfood, modo considerevole il suo sistema di
ad alcuni tipi di file, aree geografi- MSN non ha mostrato i siti che ven- ricerca e ora fornisce diversi stru-
che e idiomi. Inoltre corregge auto- dono hardware wireless. menti per definire meglio le interro-
maticamente gli errori di ortografia Sfortunatamente le categorie sono gazioni. I risultati di ricerca dal Web
o di battitura ed è esperto nelle in- sempre visualizzate con l’ordine so- in generale sono forniti da Google e
terrogazioni in linguaggio naturale. pra citato, con i siti generici seppel- vengono raggruppati nella stessa pa-
I risultati di MSN però non sempre liti sotto altri risultati. E’ discutibile gina in cui compaiono i risultati della
sono aggiornati e non si possono anche la scarsa differenziazione con directory di Yahoo!; in passato invece
raffinare le ricerche con operatori cui sono segnalati i siti sponsorizza- i risultati delle ricerche nel Web era-
specializzati già dalla pagina di ri- ti: non è abbastanza chiara e si fini- no riportati in una pagina diversa.
cerca principale. MSN non offre sce per scorrere i link sponsorizzati Yahoo! può essere la scelta migliore
neppure pagine cache o traduzioni. mentre si stanno leggendo i risulta- per quanti preferiscono fare ricerche
I suoi risultati sono organizzati in ti. Un problema quest’ultimo che utilizzando la sua Directory, viene vi-
cinque modi diversi: Populars To- Google ha risolto in modo molto più sualizzata sopra i risultati delle ricer-
pics (le ricerche generiche fatte da- gradevole. che nel web generico e che spesso
gli utenti di MSN), Featured Sites, Nelle interrogazioni con linguaggio contiene risultati più pertinenti. Per
cioè i siti consigliati dagli editor del- naturale (in inglese) MSN si compor- contro qualcuno potrebbe non ap-
la redazione di MSN; i siti sponso- ta meglio dei motori che basano la lo- prezzare l’essere spinto verso i siti
rizzati (Sponsorized Sites), la Web ro tecnologia su Google. Nella stra- sponsorizzati. Quando Yahoo! mostra
Directory (un indice simile a quello grande maggioranza delle ricerche, i risultati delle ricerche prima cerca
di Yahoo!) e le Pagine Web (prese almeno uno dei primi dieci risultati di far combaciare la ricerca effettuata
dal Web in generale). MSN visualiz- era un link non funzionante e in col motore di ricerca con le categorie
qualche caso abbiamo avuto più di della directory e posiziona i link
una riserva anche su quelli attivi. Ad sponsorizzati sopra i risultati di Goo-
esempio quando abbiamo cercato gle. Quando si fa una ricerca su pro-
“ bed and breakfast ” + “New En- dotti e servizi i link sponsorizzati pos-
gland” il sommario che MSN dava in sono anche rivelarsi utili, ma se si
uno dei risultati diceva “Bernice stanno cercando semplicemente
Chesler’s Bed & Breakfast in New informazioni, i siti sponsor possono
England Web Site is now closed”. fuorviare. Per esempio quando ab-
Quando si inseriscono le parole chia- biamo inserito la parola chiave 1394,
ve nella maschera di ricerca che si come criterio di ricerca per l’home
trova nell’home page di MSN si pos- page del 1394 Trade Organization,
sono usare le doppie virgolette per ri- Yahoo! ci ha portati ad essa, dopo
cercare frasi specifiche. Ma per altri aver elencato tre siti che vendevano
operatori come il segno meno (per computer.
escludere pagine contenenti date pa- Grazie a una nuova pagina di ricerca
role) o gli asterischi (co- avanzata ora è possibile restringere
me i caratteri jolly alla fi- le ricerche a domini particolari, aree
ne delle parole) bisogna geografiche e idiomi linguistici. Per
andare nella pagina del- esempio si può impostare una ricerca
le ricerche avanzate. E basata sulla data ultima di aggiorna-
ad ogni modo bisogna mento dei siti oppure si possono cer-
passare di qui anche se care solo le pagine che mostrano una
si vuole restringere le ri- certa parola chiave nelle loro Url.
cerche per dominio, tipo Yahoo! comunque ha ancora molta
di file, regione e idioma. strada da fare: manca di alcune capa-
Perché allora non ren- cità di ricerca che abbiamo potuto
derli già disponibili nel- apprezzare in altri motori, come l’uso
l’home page? dei caratteri jolly e la possibilità di
avviare ricerche booleane già all’in-
terno del box di ricerca principale. A
breve però dovrebbe essere rilasciata
una nuova versione del motore. ■
297
PC Professionale - luglio/agosto 2003