¿Qué es el Rastreo o Crawling?

qué es el rastreo o crawling de una pagina web

El término rastreo en SEO se utiliza para el señalar el proceso por el cual los bots de los diferentes buscadores de internet van abriendo y descubriendo nuevas URLs en internet.

El rastreo de páginas web es el primer paso previo a la aparición de una página web en las SERPs de los buscadores.

Es decir, para que una URL aparezca en Google, GoogleBot ha de pasar por ella para descubrirla y posteriormente si lo cree conveniente indexarla.

Por este motivo, el proceso de rastreo en SEO es tan importante. Si una URL no es rastreable (Ningún enlace internos/externo apunta hacia ella) no será visible para los buscadores y esta URL no aparecerá en internet.

Por lo tanto, es muy útil optimizar el rastreo. De ahí, la importancia del crawl budget o presupuesto de rastreo en toda estrategia de posicionamiento web SEO.

¿Por qué es tan importante el rastreo en SEO?

El proceso SEO para que una URL aparezca en Google será el siguiente:

  1. Descubrimiento de la URL nueva por parte de los bots de los buscadores.
  2. Puesta en cola de rastreo para su posterior estudio por parte de los algoritmos de Google.
  3. Indexación de la URL en caso de que la URL haya pasado los filtros de los buscadores. Aparición en las SERPs.
  4. Posicionamiento o rankeo de keywords. Cuando las keywords empiezan a posicionar en los buscadores.

Es decir, el rastreo, es el principio de la cadena y por ello se ha de cuidar al máximo posible para que finalmente se alcance al final del proceso con el rankeo de keywords.

Por ello, a la hora de hacer accesible una página web para el rastreo de Google Bot es importante que el portal web tenga:

  1. Enlaces internos con código 200.
  2. Enlaces externos de calidad.
  3. Evitar los errores 500 o de servidor.
  4. Que tu página web tenga el mínimo número de errores 400, errores 404, etc. Esto se hace para que los bots no pierdan el tiempo en URL que no existen.
  5. Que no existan muchas redirecciones 301, o redirecciones 302 para evitar liar a los bots de los buscadores.
  6. Eliminar los enlaces ofuscados salvo que sean imprescindibles por motivos de link juice.
  7. Evitar a toda costa el Javascript puesto que los buscadores de internet tienen dificultad para leerlo.
  8. Hacer semánticamente comprensible el DOM de la página web.
  9. Tener una buena arquitectura web.