ROBOTS.TXT

Consígue el robots.txt perfecto para tu WordPress

robots txt wordpress

Publicado: 2 julio 2018

Modificado: 20 febrero 2020

Tiempo de lectura: 6 min

¡Qué tal querido lector! ¿Alguna vez has oído el nombre robots.txt? Estoy seguro de que sí y por ello estoy hoy aquí, por que como ya sabrás este archivo robots es importante para el SEO de tu página web.

Pero ¿Realmente sabes lo qué es y para que se utiliza este archivo en tu página web?

No te preocupes, en el post de hoy te voy a explicar TODO lo que necesitas saber para desarrollar por ti mismo este archivo robots.txt sin demasiados problemas.

Si por un casual has aparecido en este post porque simplemente quieres o necesitas un archivo robots.txt universal/base para blog o página web en WordPress no te voy a hacer que te leas todo el post, aquí lo tienes.

Sin embargo, si sigues leyendo este post verás como lo mejor será crear un archivo robots personalizado y único para tu página web si de verdad quieres optimizar el crawl budget o presupuesto de rastreo de tu página web.

¡Vamos al lío!

¿Necesitas ayuda con tu página web?

Si tienes varias dudas sobre posicionamiento web SEO o no sabes como hacer una cosa en concreto te puedo enseñar a hacerlo en 1h de consultoría para que tu posicionamiento web mejore.

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo plano que contiene unas indicaciones especificas para los bots que rastrean tu página web (Cómo el bot de Google o el de Bing).

Teóricamente, lo primero que hace un bot al pasar a rastrear una página web es analizar el archivo robots.txt para conocer sus directrices y ver si se le esta permitido el acceso a según que partes de la página web.

Por lo tanto, ¿Para qué sirve el robots.txt?

Este archivo sirve para denegar a los bots el rastreo a ciertas partes de tu página web. Por así decirlo con este archivo le indicarás al bot o a la araña de Google algo como “Deja de rastrear aquí, no está permitido que accedas a esta parte de la web para leer sus contenidos”

Al igual que sirve para limitar, el archivo robots.txt también servirá para indicar a los bots que directorios y contenidos pueden ser rastreados.

Además, en este archivo podrás delimitar cada cuanto tiempo quieres que los bots rastreen tu web para así reducir el consumo de recursos en tu servidor.

Por si esto fuera poco, en este archivo se le indicará al bot donde se encuentra el sitemap XML de tu página web para que este sea capaz de encontrar las principales URLs de tu página web (Aquellas que tu permites que sean rastreadas).

¿Para qué no sirve el robots.txt?

Existen una serie de mitos SEO sobre este archivo que hoy quiero desmontar ya que pueden inducirte a error.

El robots.txt no sirve para ocultar directorios. ¿Por qué? Sencillo, por que si capas algo por robots todo el mundo podrá saberlo accediendo simplemente al archivo.

Por lo tanto, si quieres ocultar o proteger algún directorio, la mejor opción no será hacerlo vía robots… Lo mejor en este caso será establecer un noindex, nofollow para ese directorio.

El robots.txt tampoco será la mejor opción para desindexar páginas de Google (Para este cometido lo mejor será hacerlo usando Search Console).

IMPORTANTE. Ten en cuenta que si utilizas noindex,nofollow en una URL para eliminarla de Google y está se encuentra capada o limitada por el archivo robots, Google nunca podrá acceder a ella y la página web seguirá indexada.

Parámetros aceptados por el archivo robots

Una vez visto que es un robots.txt y para que sirve será el momento de conocer que parámetros podrás encontrar en él.

  • El archivo robots.txt sigue un convenio universal llamado Robots Exclusión Protocol. Este factor provoca que solo se puedan utilizar lo comandos que te voy a mostrar, aunque es cierto que muchos buscadores luego cuentan con otros parámetros adicionales.
  • Además, el archivo robots hace distinción entre mayúsculas/minúsculas, la puntuación y los espacios y se aplica la máxima de una línea, una directiva.

Dicho esto, lo comandos que podrás encontrar en un archivo robots.txt podrán ser:

  • User-agent. Indica qué robot debe cumplir con las directivas que se indiquen a continuación en el robots.txt.
  • Disallow. Deniega el acceso a un directorio o página en concreto.
  • Allow. Es lo contrario a la directiva Disallow. Esta directiva permitirá el acceso directorios y páginas. Se suele utilizar para sobrescribir la directiva Disallow de forma parcial o total.
  • Sitemap. Indica la ruta donde se encuentra tu mapa del sitio en XML (Más conocido como sitemap.xml).
  • Crawl-delay. Indica al robot el número de segundos que debe esperar entre cada rastreo de página. Esto servirá para optimizar los recursos del servidor.
  • Asterisco (*). Esta expresión sirve para comenzar una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
  • Dólar ($): Indica el final de una URL. Por ejemplo, si quieres indicar cualquier archivo que acabe con la extensión .PHP se utilizarías la expresión“/*.php$”.

Restricciones que se pueden encontrar en un archivo robots.txt

Dentro del archivo robots.txt podrás  crear una serie de restricciones para que el bot no pase por allí.

Sin embargo, te recomiendo que seas cauto con estás restricciones ya que es más fácil de lo que parece cometer un error y restringir el acceso del bot a una parte importante de tu páginas web, lastrando de esta manera tu posicionamiento web.

Por todo ello, quiero dejarte una serie de restricciones típicas que aparecen en este tipo de archivos:

  • Incluir todos los robots. User-agent: *
  • Especificar el robot de Google. User-agent: Googlebot
  • Especificar el robot de Bing. User-agent: Bingbot
  • Especificar el robot de Yandex. User-agent: Yandex
  • Denegar todo el sitio. Disallow: /
  • Denegar un directorio. Disallow: /directorio/
  • Denegar directorios que comienzan por una palabra en concreto “palabra”. Disallow: /palabra*/
  • Denegar acceso a una página. Disallow: /pagina-web.html
  • Denegar acceso a directorios y páginas que comienzan por una palabra en concreto “palabra”. Disallow: /palabra
  • Denegar acceso a una extensión en concreto como .php. Disallow: /*.php$
  • Permitir un subdirectorio. Allow: /directorio/subdirectorio/
  • Indicar donde está el mapa del sitio. Sitemap:

Cómo crear un archivo robots.txt para WordPress

Crear o modificar el archivo robots.txt en WordPress será muy sencillo ya que podrás hacerlo mediante la instalación de un simple plugin.

En caso de optar por este método (Yo soy más escribir mi robots.txt en un bloc de notas y subirlo luego vía FTP) podrás hacerlo mediante el plugin de WordPress Robots Rewrite.

No obstante, si usas algún plugin de SEO como Yoast SEO o All In One SEO también podrás modificar este archivo sin necesidad de hacerlo mediante FTP.

De todos modos, para que puedas cambiar el archivo robots directamente desde el panel de control de WordPress necesitarás que tus proveedores de hosting te lo permitan ya que mucho de ellos no te dejarán por cuestiones de seguridad.

De todos modos, si deseas modificar directamente tu archivo robots.txt desde el panel de tu WordPress con el plugin Yoast SEO tendrás que seguir la siguiente guía:

  1. Accede a tu panel de control de WordPress.
  2. En la columna de la izquierda haz click sobre SEO (Icono de Yoast SEO) y posteriormente sobre “Herramientas”.
  3. Después haz click sobre “Editor de archivos”.
  4. Modifica el texto que aparecerá para el robots.txt y pulsa en guardar.

Cómo crear el archivo robots.txt si mi página web no es WordPress

En caso de que tu página web no sea WordPress siempre te quedará la opción de crear el robots.txt a mano y subirlo vía FTP. Para ello, simplemente tendrás que abrir un bloc de notas y guardarlo con el nombre de robots.txt

Con el archivo creado correctamente con sus directivas (Asegúrate de que lo has hecho bien y que contiene la extensión .txt). Sube esté archivo a la carpeta raíz donde tengas instalado tu WordPress. Para ello, yo utiliza el gestor de FTP FileZilla.

Una vez tengas instalado Filezilla introduce los datos de tu hosting (Servidor, usuario y contraseña que te proporciona tu proveedor) en el programa para que este pueda acceder a tu servidor.

Cuando esté todo configurado y hayas conseguido conectarte con tu hosting vía FTP bastará con subir este archivo robots.txt dentro de la carpeta donde esté tu WordPress. Esta carpeta normalmente se llamará public_html/ o www/

Cómo validar que se ha hecho bien el archivo robots.txt con Search Console

Si no estas seguro de si has creado correctamente las directivas del archivo robots.txt, Google mediante su herramienta Search Console te permitirá validar el archivo robots.txt para comprobar posibles errores.

Para ello, simplemente tendrás que acceder a la siguiente URL (https://www.google.com/webmasters/tools/robots-testing-tool) y seleccionar la propiedad sobre la que deseas hacer comprobaciones del robots.

En esta nueva ventana podrás introducir el código que has creado para tu robots y comprobar si te has equivocado en alguna línea o si estás bloqueando alguna URL en concreto de tu página web que no deseas.

¿Realmente existe el robots.txt perfecto para tu página web? Conclusión

Cómo habrás podido comprobar a lo largo de este post y como suele ocurrir en SEO no hay una solución universal a un problema. Cada página web es distinta y por ello el robots de cada una debería de ser distinto.

Es verdad que si tu página web es un simple blog en WordPress sin demasiadas complicaciones y cosas raras el código que te voy a dejar aquí podrá servirte como base.

Sin embargo, lo más óptimo será analizarás bien las necesidades de tu página web y ver que páginas quieres que sean rastreadas y cuáles no para bloquearlas por robots si así se estima necesario.

Por lo tanto, te recomiendo que inviertas un poco de tiempo en analizar dichas necesidades para así crear un robots.txt personalizado para tu página web.

Si tienes alguna pregunta no dudes en dejarla en los comentarios que para eso estamos.

¡Hasta la próxima!

borja aranda vaquero consultor seo

Artículo escrito por:

Borja Aranda Vaquero

Propietario de este bonito blog sobre SEO, WordPress y diseño web. Mi intención es ayudar a empresas y emprendedores a conseguir las primeras posiciones en Google con el fin de que generen nuevos ingresos y clientes a través de internet.

Responsable: Borja Aranda Vaquero

Finalidad: Moderar y responder comentarios de usuarios

Legitimación : Consentimiento.

Destinatarios: Todos tus datos los guardará Disqus. Mi sistema de comentarios (Acogido al acuerdo de seguridad EU-US Privacy). 

Derechos: Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en legal [@] borjaarandavaquero.com así como el derecho a presentar una reclamación ante una autoridad de control.

Información adicional: En la Política de Privacidad de borjaarandavaquero.com,  encontrarás información adicional sobre la recopilación y el uso de su información personal ,incluida información sobre acceso, conservación, rectificación, eliminación, seguridad, y otros temas.

COMPARTIR POST
suscribirse al blog

¿TE GUSTA EL CONTENIDO?

¡Súscríbete y no te pierdas ni uno más!

+ 2 Ebooks SEO DE REGALO

Responsable: Borja Aranda Vaquero

Finalidad de la recogida y tratamiento de los datos personales: enviarte comunicaciones comerciales y Newsletter informativo

Derechos: Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en legal [@] borjaarandavaquero.com así como el derecho a presentar una reclamación ante una autoridad de control.
Información adicional: En la Política de Privacidad de borjaarandavaquero.com,  encontrarás información adicional sobre la recopilación y el uso de su información personal ,incluida información sobre acceso, conservación, rectificación, eliminación, seguridad, y otros temas.