Spider Seo Crawler

Crawlers, Robots.txt y SEO – Primera parte

Qué es un Crawler?

Los crawlers, también conocidos como arañas, spiders, robots o bots, son software que van navegando por internet y visitando todos los enlaces que se encuentra en las páginas o que le facilitamos para recopilar información de estas páginas que visita. Que contienen, como lo contienen, como de rápido se lee la información y un largo etc.

Crawler Comunis hambriento buscando información nueva en la nube DESCUBRIRSEO
Crawler Comunis hambriento buscando información nueva en la nube.

Por qué son importantes los crawlers para el SEO?

Los crawlers son una de las base fundamentales de todo SEO. Sin ellos, no existimos.¡Literalmente! (O casi)

A los crawlers les gusta mucho el contenido nuevo y actualizado, es información fresca, su comida preferida y les encanta compartir esta información con Google. Si detecta que una página suele tener contenido nuevo, vendrá más a menudo a refrescarse.

Es vital tener la información de nuestra página al día para Google ¡y para nosotros!. Google lo necesita para ofrecer un mejor servicio en sus buscadores, para no mostrar información de hace años cuando existe algo más reciente, que es lo que la mayoría de gente busca, contenido al día. Y nosotros lo necesitamos exactamente por lo mismo, para que nuestra página se posicione la primera en las búsquedas, para hacerla visible al mundo y que el mundo nos visite. Porque queremos eso, ¿no?

Aunque vendas ballestas +20, si no te das a conocer, no vendrán todos los posibles aventureros a comprarlas.

Necesitamos facilitarle el trabajo a los crawlers lo máximo posible ya que, sin ellos, Google no se entera de lo que tenemos y no le permitimos conocernos, lo cual es importante ya que si no nos conoce no nos puede posicionar.

Cuántos crawlers existen?

Google usa varios tipos de crawlers, cada uno dedicado a un tipo de información especifica, para expandir su base de datos. Tenemos crawlers para imágenes, para vídeos, para noticias,… Esto es así para facilitar un poco más la tarea de recopilación de información específica. Podemos encontrar toda la información sobre estos en la página de google: https://support.google.com/webmasters/answer/1061943

Qué es el Robots.txt?

Robots.txt es un archivo que tenemos en nuestra página que indica a los crawlers si tienen permitido entrar a mirar y que partes pueden mirar dentro de nuestra página. Normalmente, los buscadores hacen caso de lo que les digamos en este archivo, pero no todos obedecen al pie de la letra y se lo pasan por el forro. Google es obediente en este caso.

Por qué es importante el robots.txt para el SEO?

Como se dijo, este archivo le indicará a los crawlers que ver y que no ver. Sin este archivo bien configurado y sin errores, la tarea de los crawlers se verá enormemente afectada. No recogerán bien la información, recogerán información no útil o directamente no recogerán nada. Un desastre a nivel SEO.

Es importante definir el archivo robots.txt bien ya que es posible que no queramos que los crawlers vean todo el contenido de nuestra web. Hay gente que guarrea en algunas de sus páginas para poder hacer pruebas y no quieren que Google vea eso para no ser descalificados.

Tus armaduras son fantásticas pero es necesario ese trozo de dragón pudriéndose en el mostrador? Espera… eso de ahí es un orinal…?

Cómo es por dentro un robots.txt?

En este archivo encontraremos varios elementos:

  • Sitemap: Opcional. La o las URL donde se ubica el sitemap de nuestra página para que puedan ser idenxadas.
  • User-agent: Es el identificador del crawler. Podemos usar * para especificar todos los crawlers salvo los de google. En el caso de Google, el * solo lo aplicará para Googlebot, no el del resto de sus crawlers, que deben ser nombrados específicamente.
  • Directivas: Allow y Disallow. Indican donde pueden y no pueden acceder los crawlers. Existen más, pero no le molan a Google.

Si apareciera el mismo user-agent varias veces, las directivas sobre ese crawler no se aplicaran en las siguientes.

En el caso de encontrar 2 directivas que causen conflicto, se aplicará la directiva con más caracteres.

Un robots.txt de ejemplo se vería parecido a esto:

Sitemap: https://www.pagina.com/sitemap.xml
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Disallow: /pruebas
Disallow: /admin

En este caso, estamos diciendo que ningún crawler tiene permitido acceder a raíz ni nada que cuelgue debajo de raíz. Además, estamos añadiendo que el crawler GoogleBot si tiene permitido acceder a raíz y todo lo que le cuelgue salvo a la página de pruebas y la de admin.

Dónde pongo el robots.txt?

Robots.txt siempre deberá estar ubicado en el directorio raíz de nuestra página. Esto parece algo chorra pero es más importante de lo que parece. Da igual que lo hayamos creado perfecto, si no podemos acceder a él a través de www.mipagina.com/robots.txt va a ser imposible para el crawler encontrarlo.

Hay que destacar que solo puede existir un único archivo robots.txt. De hecho, es imposible colocar 2.

2 comentarios en “Crawlers, Robots.txt y SEO – Primera parte”

Deja un comentario