Consígue el robots.txt perfecto para tu WordPress

¡Qué tal querido lector! ¿Alguna vez has oído el nombre robots.txt?

Estoy seguro de que sí. También estoy seguro de que sabes que es un archivo importante para el SEO de tu web, etc, etc, etc.

Pero, ¿Realmente sabes lo qué es y para que se utiliza a parte de saber que es necesario para el SEO tu web?

No te preocupes, en el post de hoy te voy a explicar TODO lo que necesitas saber para desarrollar por ti mismo este archivo sin demasiados problemas un robots.txt a la altura de tu sitio web.

Si por un casual has aparecido en este post porque simplemente quieres un robots.txt universal para blog o web en WordPress no te voy a hacer que te leas todo el post, aquí lo tienes.

Sin embargo, esta no es la solución recomendable cómo verás a lo largo de este manual!

¡Vamos al lió!

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo plano que contiene unas indicaciones especificas para los bots que rastrean tu web (como el bot de Google o el de Bing).

Teóricamente, un bot lo primero que hace al pasar por una web es analizar el archivo robots.txt para conocer las directrices de esta y saber por donde puede rastrear y por donde no le está permitido el acceso.

Por lo tanto, ¿Para qué sirve el robots.txt?

Este archivo sirve para denegar a los bots el rastreo a ciertas partes de tu web. Por así decirlo con este archivo le indicarás al bot o a la araña de Google algo como “Deja de rastrear aquí, no está permitido que accedas a esta parte de la web”

Al igual que sirve para limitar, el archivo robots.txt también sirve para indicar a los bots que directorios y contenidos pueden ser rastreados.

Además, en este archivo puedes delimitar cada cuanto tiempo quieres que los bots rastreen tu web para así reducir el consumo de recursos en tu servidor.

Por si fuera poco, en este archivo se le indica al bot donde se encuentra el sitemap de tu web para que encuentre las principales URLs (aquellas que tu permites que sean rastreadas).

¿QUIERES VER TU WEB EN LAS PRIMERAS POSICIONES DE GOOGLE?

Aprende las 15 técnicas SEO que harán de tu sitio web una web popular y deja de ser invisible para Google.

ebook conseguir visitas a tu blog

Responsable: Borja Aranda Vaquero Finalidad: Moderar los comentarios Legitimación: Tu consentimiento  Destinatarios:  Tus datos los guardará Mailchimp, mi proveedor de email marketing, que está acogido al acuerdo de seguridad EU-US Privacy.  Derechos: Tendrás derecho a acceder, rectificar, limitar y suprimir tus datos

¿Para qué no sirve el robots.txt?

Existen una serie de mitos sobre este archivo que hoy querría desmontar ya que pueden llevarte a error.

El robots.txt no sirve para ocultar directorios. ¿Por qué? Sencillo, por que si capas algo por robots todo el mundo podrá saberlo accediendo simplemente al archivo. (si no que se lo digan a los de casa real…)

Por lo tanto, si quieres ocultar o proteger algún directorio, la mejor opción no será hacerlo por robots… Lo mejor en este caso será establecer un NOINDEX, NOFOLLOW para ese directorio.

El robots.txt tampoco es la mejor opción para desindexar páginas de tu sitio web de Google (para hacerlo lo más rápido posible lo mejor es usar Search Console).

Ten en cuenta que si utilizas NOINDEX, NOFOLLOW en una página para eliminarla de Google y está está capada o limitada por el robots, Google nunca pordrá acceder a ella y la página web seguirá indexada.

¿ERES INVISIBLE EN INTERNET?
  • ¿NO CONSIGUES POSICIONARTE EN GOOGLE?
  • ¿TE SUENA A CHINO EL POSICIONAMIENTO WEB SEO?
  • ¿QUIERES GANAR DINERO DE VERDAD CON TU WEB?

Parámetros aceptados por el archivo robots

Una vez visto que es un robots.txt y para que se usa es el momento de que conozcas que parámetros puedes encontrar en él para cuando te enfrentes tu solo a uno sepas analizarlo correctamente.

El archivo robots.txt sigue un convenio universal llamado Robots Exclusión Protocol. Este convenio.

Esto hace que solo se puedan utilizar lo comandos que te voy a mostrar, aunque es cierto que muchos buscadores luego cuentan con otros parámetros adicionales.

Además, se hace distinción entre mayúsculas/minúsculas, la puntuación y los espacios y se aplica la máxima de una línea, una directiva.

Dicho esto, lo comandos que puedes encontrar en el archivo robots.txt pueden ser:

  • User-agent. Indica qué robot debe cumplir con las directivas que se indiquen a continuación en el robots.txt.
  • Disallow. Deniega el acceso a un directorio o página en concreto.
  • Allow. Es lo contrario a la directiva Disallow. Esta directiva permite el acceso directorios y páginas. Se suele utilizar para sobrescribir la directiva Disallow de forma parcial o totalmente.
  • Sitemap. Indica la ruta donde se encuentra tu mapa del sitio en XML. Más conocido como sitemap.xml.
  • Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Esto sirve para optimizar recursos en el servidor.
  • Asterisco (*): Sirve para una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
  • Dólar ($): Indica el final de una URL. Por ejemplo, si quieres indicar cualquier archivo que acabe con la extensión .php se utilizarías “/*.php$”.
CONOCE LOS TÍPICOS ERRORES CAPITALES QUE LASTRAN TU SEO

Conoce cuales son los principales pecados capitales que se suelen cometer en SEO contados de una forma totalmente distinta a como los habías leído hasta ahora.

pecados capitales seo

Responsable: Borja Aranda Vaquero Finalidad: Moderar los comentarios Legitimación: Tu consentimiento  Destinatarios:  Tus datos los guardará Mailchimp, mi proveedor de email marketing, que está acogido al acuerdo de seguridad EU-US Privacy.  Derechos: Tendrás derecho a acceder, rectificar, limitar y suprimir tus datos

Restricciones típicas que podemos encontrar en el archivo robots.txt

Dentro del archivo robots.txt como puedes crear una serie de restricciones para que el bot no pase por allí.

Sin embargo, te recomiendo que seas cauto con estás restricciones ya que es más fácil de lo que parece cometer un error y restringir alguna parte importante de tu web, lastrando de esta manera tu posicionamiento web.

Por ello, quiero dejarte una serie de restricciones típicas que se suelen llevar a cabo en este archivo para que te familiarices con ellas:

  • Incluir todos los robots. User-agent: *
  • Especificar el robot de Google. User-agent: Googlebot
  • Especificar el robot de Bing. User-agent: Bingbot
  • Especificar el robot de Yandex. User-agent: Yandex
  • Denegar todo el sitio. Disallow: /
  • Denegar un directorio. Disallow: /directorio/
  • Denegar directorios que comienzan por una palabra en concreto “palabra”. Disallow: /palabra*/
  • Denegar acceso a una página. Disallow: /pagina-web.html
  • Denegar acceso a directorios y páginas que comienzan por una palabra en concreto “palabra”. Disallow: /palabra
  • Denegar acceso a una extensión en concreto como .php. Disallow: /*.php$
  • Permitir un subdirectorio. Allow: /directorio/subdirectorio/
  • Indicar donde está el mapa del sitio. Sitemap:

Cómo crear el Archivo robots.txt para WordPress

Crear o modificar el archivo robots.txt en WordPress es muy sencillo ya que puedes hacerlo mediante la instalación de un simple plugin.

En caso de optar por este método (yo soy más de hacerlo vía FTP) puedes hacerlo mediante el plugin de WordPress FileZilla.

No obstante, si usas algún plugin de SEO como Yoast SEO o All In One SEO también podrás modificar este archivo. De todos modos, para que puedas cambiar el archivo robots directamente desde el panel de control de WordPress necesitarás que tus proveedores de hosting te lo permitan ya que mucho no te dejan por cuestiones de seguridad.

Cómo crear el archivo robots.txt si mi web no es WordPress

En caso de que tu web no sea WordPress siempre te quedará la opción de crear el robots.txt y subirlo de forma manual. Para ello, simplemente tendrás que abrir un bloc de notas y guardarlo con el nombre de robots.txt

Con el archivo creado correctamente (asegúrate de que lo has hecho bien, es muy fácil cometer errores). Sube esté archivo a la carpeta raíz donde tengas instalado tu WordPress. Para ello, yo utilizo el gestor de FTP FileZilla.

Una vez tengas instalado Filezilla introduce los datos de tu hosting (Servidor, usuario y contraseña que te proporciona tu proveedor) en el programa para que este pueda acceder a tu servidor.

Si lo has hecho todo correctamente, cuando estés dentro de tu alojamiento web sube este archivo robots.txt dentro de la carpeta donde esté tu WordPress. Esta carpeta normalmente se llamará public_html/ o www/

Cómo validar o probar que hemos hecho bien el archivo robots.txt con Search Console

Si no estas seguro de si has creado correctamente el archivo, Google mediante su herramienta Search Console te permite validar el archivo robots.txt para comprobar posibles errores.

Para ello, simplemente tendrás que acceder a tu Search Console y hacer clic “Probador de robots.txt” que se encuentra dentro de la pestaña “Rastreo” en la columna izquierda de tu Search Console.

En esta pestaña podrás introducir el código que has creado para tu robots y ver si te has equivocado en algo o si estás bloqueando alguna página en concreto de tu sitio web.

Solución al problema “Recursos bloqueados en Google Search Console”

Desde hace un tiempo Google comenzó a mandar email a los webmasters indicándoles que había un nuevo error en Search Console. El error era que existían recursos bloqueados.

Esto realmente no era un problema, simplemente fue un capricho de Google que cada X tiempo hace lo que le viene en gana con sus directrices (para ello tiene el monopolio).

Lo que hizo Google en esta actualización fue decir que no se podía denegar el acceso a los archivos JS y CSS del sitio web utilizando el robots.txt. ¿Cómo se solucionó entonces? Fácil. Editando el robots.txt y habilitando el acceso a los bots de los archivos JS y CSS con el siguiente código.

¿Realmente existe el robots.txt perfecto para tu web? Si es este.

Cómo habrás podido comprobar a lo largo de este post y como suele ocurrir en SEO no hay una solución universal al problema. Cada web es distinta y por ello el robots de cada web debería de ser distinto.

Es verdad que si tu web es un simple blog pequeñito sin demasiadas complicaciones y cosas raras el código que te voy a dejar aquí puede servirte.

Sin embargo, lo más óptimo seria que analizarás bien las necesidades de tu página web y ver que páginas quieres que sean rastreadas y cuáles no.

Por lo tanto, te recomiendo que gastes un poco de tiempo en analizar esas necesidades y crees un robots.txt personalizado para tu sitio web.

Si tienes alguna pregunta no dudes en dejarla en los comentarios que para eso estamos

¡Hasta la próxima!

¿QUIERES VER TU WEB EN LAS PRIMERAS POSICIONES DE GOOGLE?

Aprende las 15 técnicas SEO que harán de tu sitio web una web popular y deja de ser invisible para Google.

ebook conseguir visitas a tu blog

Responsable: Borja Aranda Vaquero Finalidad: Moderar los comentarios Legitimación: Tu consentimiento  Destinatarios:  Tus datos los guardará Mailchimp, mi proveedor de email marketing, que está acogido al acuerdo de seguridad EU-US Privacy.  Derechos: Tendrás derecho a acceder, rectificar, limitar y suprimir tus datos

Al realizar un comentario en este blog aceptas su Política de Privacidad
Responsable: Borja Aranda Vaquero
Finalidad: Moderar los comentarios
Legitimación: Tu consentimiento
Destinatarios: Tus datos los guardará Disqus, mi sistema de comentarios (acogido al acuerdo de seguridad EU-US Privacy)
Derechos: Tendrás derecho a acceder, rectificar, limitar y suprimir tus datos

COMPARTIR POST