Docstoc

Como_Funciona_un_Buscador_1_

Document Sample
Como_Funciona_un_Buscador_1_ Powered By Docstoc
					¿Cómo funciona un buscador?

La verdad sobre los motores de búsqueda

Montserrat Peñarroya Octubre 2004

Introducción

• La red está cambiando nuestros hábitos de trabajo y cada vez tiene una presencia más ubicua en nuestras vidas. • La principal herramienta de marketing de esta nueva son los buscadores: cuando alguien necesita información, acude a Internet y utiliza un buscador. • Pero, ¿cómo funciona un buscador? ¿qué tenemos que hacer para asegurarnos de que nos encuentran?

Los buscadores de antes

Los buscadores anteriores a Google (salvo Altavista), eran directorios de páginas web. Esto significa lo siguiente: • Tú debías dar de alta tu página web en el directorio. • Debías indicar por qué palabras clave deseabas ser encontrado. • Tú redactabas la definición de tu página web.

... Y cuando alguien buscaba una palabra que estaba incluida en tus palabras clave o en tu definición, el buscador mostraba tu página.

¿Cómo funcionan ahora los buscadores?

Ahora son índices automáticos de páginas web:
• Una araña (un pequeño programa que se mueve por la red) visita tu página web • La araña lee el contenido de tu página web • La araña lleva toda la información a una central, donde un sistema la procesa y la almacena. • El sistema crea un índice con las palabras que utilizas en tu web y las ordena por relevancia. • El sistema intenta descubrir si eres una buena página o no (comprueba cuanta gente recomienda tu web). • Cuando alguien realiza una búsqueda, y el sistema muestra todas las webs que contienen la palabra o frase buscada.

 ... Y muestra los resultados en función de un algoritmo.

Esta presentación tratará los siguientes puntos:

• ¿Cómo nos encuentra por primera vez una araña?

• ¿Cómo una araña puede navegar por nuestras páginas?
• ¿Cómo podemos evitar que una araña navegue por nuestras páginas, si no deseamos ser indexados? • Una vez estamos indexados, ¿cómo podemos mejorar nuestra posición en el listado de resultados?

Las arañas

Hay muchísimas arañas navegado constantemente por la red
Controlando las 5 principales tenemos el 90% de las arañas controladas. • • • • • Google Bot (Google) Slurp (Yahoo) Scooter (Altavista) Fast (webs privades) Teoma (Ask Jeeves)

64.68.82.14 - - [03/Aug/2003:14:26:11 +0800] "GET / HTTP/1.0" 200 2225 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 200.46.132.9 - - [03/Aug/2003:15:54:29 +0800] "GET / HTTP/1.1" 200 2225 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705)" 200.46.132.9 - - [03/Aug/2003:15:54:29 +0800] "GET /icons/i/1line.gif HTTP/1.1" 200 76 "http://solocine.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705)" 200.46.132.9 - - [03/Aug/2003:15:54:30 +0800] "GET /icons/i/1bg.gif HTTP/1.1" 200 3023 "http://solocine.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705)" 200.46.132.9 - - [03/Aug/2003:15:54:35 +0800] "GET /images/logo3_luz_roja_2.jpg HTTP/1.1" 200 47843 "http://solocine.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705)" 64.68.85.10 - - [03/Aug/2003:16:37:05 +0800] "GET /robots.txt HTTP/1.0" 404 128 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 64.68.85.10 - - [03/Aug/2003:16:37:06 +0800] "GET / HTTP/1.0" 200 2225 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 62.57.10.48 - - [03/Aug/2003:20:32:10 +0800] "GET / HTTP/1.1" 200 2225 "http://www.montilla.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 62.57.10.48 - - [03/Aug/2003:20:32:11 +0800] "GET /icons/i/1line.gif HTTP/1.1" 200 76 "http://www.solocine.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 62.57.10.48 - - [03/Aug/2003:20:32:11 +0800] "GET /icons/i/1bg.gif HTTP/1.1" 200 3023 "http://www.solocine.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 62.57.10.48 - - [03/Aug/2003:20:32:12 +0800] "GET /images/logo3_luz_roja_2.jpg HTTP/1.1" 200 47843 "http://www.solocine.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)“

Estos son los rastros de lo que está pasando por nuestras máquinas: los Logs. Aquí puedes ver el paso de las arañas por tu web. Programas de análisis como WebTrends o LiveStats, analizan los logs de las páginas web y muestran estadísticas de toda la actividad.

¿Cómo hacer llegar una araña a nuestra página web?
• O bien conseguimos que nuestra página aparezca en el listado de la araña (acudiendo a un buscador y pulsando sobre Add URL)
O bien llega a nuestra página a través de un enlace en otra página web.

Add URL

Submit Your Site

•

 Las dos formas de atraerlas son igual de buenas.

Una vez tenemos a la araña dentro…

Debemos asegurarnos de que puede navegar por todas nuestras páginas, para que el buscador que las ha enviado pueda indexarnos bien. Las arañas no pueden pasar a través de enlaces que estén:

• Escritos en Javascript • Dentro de Flash • Dentro de Pop Up’s • (Algunas arañas) Botones

¿Cómo puedo saber cuántas páginas tengo indexadas?
• Existe un comando en Google que te permite saber cuantas páginas tienes indexadas. Este mismo comando suele funcionar en otros buscadores:  Escribe en la cajita buscadora: Site:www.pagina.com
(Vigila no escribas un espacio entre site: y la URL, no funcionaría)

Esta búsqueda te mostrará el número de páginas que Google tiene indexadas para una URL en concreto.
 Si deseas saber cuantas páginas de una URL en concreto contienen una palabra en determinado, la búsqueda puedes hacerla así: Site:www.pagina.com “palabra que buscas”

¿Qué tengo que hacer si no quiero que una araña entre en mi página web?

•

El protocolo de exclusión de robots es respetado por la mayoría de arañas.

¿Cómo funciona el protocolo de exclusión?
• Antes de empezar a escanear una página, las arañas acuden siempre a la página robots.txt de tu página web, y buscan en ella qué partes de la web se pueden escanear y quienes pueden hacerlos.

 Si no tienes una página robots.txt, deberías crear una en blanco y colgarla en tu web. Si hay alguna parte de tu web que no deseas que se escanee, indícalo en esta página.

Ya estamos indexados… ¿y ahora qué?
Ahora, debes luchar para estar en las primeras posiciones de los resultados de búsqueda!!!

Los Algoritmos

• Cada buscador tiene sus propios algoritmos de ordenación. • Los algoritmos son secretos, pero con tiempo y paciencia, puedes llegar a conocer qué factores intervienen en él y en qué orden de importancia lo hacen.

El Algoritmo de Google

(Simplificando...) Está formado por 2 algoritmos:

• El de PageRank • El de Relevancia
Larry Page y Sergey Brin, fundadores de Google

(Page Rank = Ranking de Larry Page)

El PageRank

• Es un conjunto de algoritmos que tienen por finalidad asignar un valor numérico a las páginas web según el número de veces que otras páginas las recomienden y según el PageRank que tengan estas páginas.



La lógica del PageRank y otros algoritmos que tienen en cuenta la popularidad de una web, es la siguiente:

Una página con un buen contenido es referenciada por otras páginas. Algunas páginas son a su vez buenas páginas porqué están referenciadas por terceras páginas y porqué son buenas referenciadoras..

¿Cómo puedo aumentar mi PageRank? • Necesitas aumentar el número de enlaces en webs de terceros que recomiendan tu página web. • Necesitas conseguir que te enlacen páginas web que tengan el PageRank alto.

• Necesitas conseguir enlaces en páginas web donde no haya muchos otros enlaces. El valor del tuyo queda dividido por el número total de enlaces que salen de esa página web.
 Para conocer el PageRank de una página, debes tener instalada la barra de Google. En ella se muestra mientras navegas qué PR tiene la página que visitas.

El Algoritmo de Relevancia

Este algoritmo tiene en cuenta los siguientes factores:

• Relevancia de la palabra en el contexto general de páginas indexadas: en cuantas páginas de nuestra web, aparece esta palabra (en forma de
densidad: núm/total pág.)

• Relevancia de la palabra en cada una de las páginas.

La relevancia

Tiene en cuenta la densidad de los caracteres que forman esa palabra, en las diferentes partes de una página web: • Densidad en la URL • Densidad en el Titulo de la página (<title>) • Densidad en la descripción • Densidad en cabeceras (H1,H2, etc...) • Densidad en el nombre de enlaces • Densidad en palabras en negrita • Densidad en textos alternativos (ALT) • ...

Consejos para mejorar nuestro posicionamiento:

•

Conseguir que las arañas entren en todas y cada una de nuestras páginas. Conseguir que otras páginas web recomienden la nuestra. (Ideal si tienen un PR alto, si no tienen mucho enlaces, y si además lo hacen utilizando una palabra de las que deseamos posicionar) Conseguir que las palabras por las que deseamos posicionarnos ocupen lugares importantes en nuestra web, y lo hagan con una densidad elevada.

•

•

Consejos de última hora…

• No olvides que tu página web tiene que estar orientada a las personas, no a los buscadores. El peso de la navegabilidad y de la usabilidad general de la página, cuando la diseñes, debe ser mayor que el peso de la correcta la indexación. Las páginas se crean para las personas, no para las máquinas. • No hagas trampas. La gente de Google las conoce todas, así que haciendo trampas, lo único que consigues es arriesgarte a que te penalicen o te expulsen de Google.

Herramientas de trabajo imprescindibles (gratuitas) • La barra de Google • Simulador de araña:
http://www.gritechnologies.com/tools/spider.go

• Analizador de Densidades:
http://www.searchengineworld.com/cgi-bin/kwda.cgi

• Analizador de popularidad:
http://www.marketleap.com/publinkpop/

• Analizador de indexación en los principales motores de búsqueda :
http://www.marketleap.com/siteindex/default.htm

Otra herramienta de trabajo imprescindible HBX
HBX te proporciona estadísticas de todos los parámetros de tu web: Te indica qué arañas están indexando tu página, cuánto tráfico te traen, qué palabras son las que tus usuarios buscan, y cientos de parámetros más. Además, te ayuda a mejorar los ratios de conversión de usuario a cliente ya que proporciona informes avanzados con los que podrás realizar un seguimiento exhaustivo de todos los procesos de navegación de tu página web y te ayudará eliminar cuellos de botella.

Más información acerca de HBX >> alt64.com

• Si deseas información complementaria o deseas conocer mejor qué servicios puede ofrecerte alt64 para mejorar la eficiencia de tu página web, no dudes en contactarnos: alt64 Digital, S.L. Avda. Corts Catalanes, 7 08173 Sant Cugat del Vallés - Barcelona http://www.alt64.com info@alt64.com


				
DOCUMENT INFO