ROBOTS.TXT

Consígue el robots.txt perfecto para tu WordPress

robots txt wordpress

Publicado: 2 julio 2018

Modificado: 25 noviembre 2020

Tiempo de lectura: 6 min

¬°Qu√© tal querido lector! ¬ŅAlguna vez has o√≠do el nombre robots.txt? Estoy seguro de que s√≠ y por ello estoy hoy aqu√≠, por que como ya sabr√°s este archivo robots es importante para el SEO de tu p√°gina web.

Pero ¬ŅRealmente sabes lo qu√© es y para que se utiliza este archivo en tu p√°gina web?

No te preocupes, en el post de hoy te voy a explicar TODO lo que necesitas saber para desarrollar por ti mismo este archivo robots.txt sin demasiados problemas.

Si por un casual has aparecido en este post porque simplemente quieres o necesitas un archivo robots.txt universal/base para blog o página web en WordPress no te voy a hacer que te leas todo el post, aquí lo tienes.

[sociallocker id=”6039″]

User-agent: *
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: *?replytocom
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
Sitemap: https://borjaarandavaquero.com/sitemap_index.xml

[/sociallocker]

Sin embargo, si sigues leyendo este post ver√°s como lo mejor ser√° crear un archivo robots personalizado y √ļnico para tu p√°gina web si de verdad quieres optimizar el crawl budget o presupuesto de rastreo de tu p√°gina web.

¡Vamos al lío!

¬ŅQu√© es el archivo robots.txt?

El archivo robots.txt es un archivo plano que contiene unas indicaciones especificas para los bots que rastrean tu página web (Cómo el bot de Google o el de Bing).

Te√≥ricamente, lo primero que hace un bot al pasar a rastrear una p√°gina web es analizar el archivo robots.txt para conocer sus directrices y ver si se le esta permitido el acceso a seg√ļn que partes de la p√°gina web.

Por lo tanto, ¬ŅPara qu√© sirve el robots.txt?

Este archivo sirve para denegar a los bots el rastreo a ciertas partes de tu p√°gina web. Por as√≠ decirlo con este archivo le indicar√°s al bot o a la ara√Īa de Google algo como ‚ÄúDeja de rastrear aqu√≠, no est√° permitido que accedas a esta parte de la web para leer sus contenidos‚ÄĚ

Al igual que sirve para limitar, el archivo robots.txt también servirá para indicar a los bots que directorios y contenidos pueden ser rastreados.

Además, en este archivo podrás delimitar cada cuanto tiempo quieres que los bots rastreen tu web para así reducir el consumo de recursos en tu servidor.

Por si esto fuera poco, en este archivo se le indicar√° al bot donde se encuentra el sitemap XML de tu p√°gina web para que este sea capaz de encontrar las principales URLs de tu p√°gina web (Aquellas que tu permites que sean rastreadas).

¬ŅPara qu√© no sirve el robots.txt?

Existen una serie de mitos SEO sobre este archivo que hoy quiero desmontar ya que pueden inducirte a error.

El robots.txt no sirve para ocultar directorios. ¬ŅPor qu√©? Sencillo, por que si capas algo por robots todo el mundo podr√° saberlo accediendo simplemente al archivo.

Por lo tanto, si quieres ocultar o proteger alg√ļn directorio, la mejor opci√≥n no ser√° hacerlo v√≠a robots… Lo mejor en este caso ser√° establecer un noindex, nofollow¬†para ese directorio.

El robots.txt tampoco será la mejor opción para desindexar páginas de Google (Para este cometido lo mejor será hacerlo usando Search Console).

IMPORTANTE. Ten en cuenta que si utilizas noindex,nofollow en una URL para eliminarla de Google y est√° se encuentra capada o limitada por el archivo robots, Google nunca podr√° acceder a ella y la p√°gina web seguir√° indexada.

Par√°metros aceptados por el archivo robots

Una vez visto que es un robots.txt y para que sirve será el momento de conocer que parámetros podrás encontrar en él.

  • El archivo robots.txt sigue un convenio universal llamado¬†Robots Exclusi√≥n Protocol. Este factor provoca que solo se puedan utilizar lo comandos que te voy a mostrar, aunque es cierto que muchos buscadores luego cuentan con otros par√°metros adicionales.
  • Adem√°s, el archivo robots hace distinci√≥n entre may√ļsculas/min√ļsculas, la puntuaci√≥n y los espacios y se aplica la m√°xima de una l√≠nea, una directiva.

Dicho esto, lo comandos que podr√°s encontrar en un archivo robots.txt podr√°n ser:

  • User-agent. Indica qu√© robot debe cumplir con las directivas que se indiquen a continuaci√≥n en el robots.txt.
  • Disallow. Deniega el acceso a un directorio o p√°gina en concreto.
  • Allow. Es lo contrario a la directiva Disallow. Esta directiva permitir√° el acceso directorios y p√°ginas. Se suele utilizar para sobrescribir la directiva Disallow de forma parcial o total.
  • Sitemap. Indica la ruta donde se encuentra tu mapa del sitio en XML (M√°s conocido como sitemap.xml).
  • Crawl-delay. Indica al robot el n√ļmero de segundos que debe esperar entre cada rastreo de p√°gina. Esto servir√° para optimizar los recursos del servidor.
  • Asterisco (*). Esta expresi√≥n sirve para comenzar una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por ‚Äúprivado‚ÄĚ ser√≠an ‚Äú/privado*/‚ÄĚ
  • D√≥lar ($): Indica el final de una URL. Por ejemplo, si quieres indicar cualquier archivo que acabe con la extensi√≥n .PHP se utilizar√≠as la expresi√≥n‚Äú/*.php$‚ÄĚ.

Restricciones que se pueden encontrar en un archivo robots.txt

Dentro del archivo robots.txt podrás  crear una serie de restricciones para que el bot no pase por allí.

Sin embargo, te recomiendo que seas cauto con est√°s restricciones ya que es m√°s f√°cil de lo que parece cometer un error y restringir el acceso del bot a una parte importante de tu p√°ginas web, lastrando de esta manera tu posicionamiento web.

Por todo ello, quiero dejarte una serie de restricciones típicas que aparecen en este tipo de archivos:

  • Incluir todos los robots.¬†User-agent: *
  • Especificar el robot de Google.¬†User-agent: Googlebot
  • Especificar el robot de Bing. User-agent: Bingbot
  • Especificar el robot de Yandex. User-agent: Yandex
  • Denegar todo el sitio.¬†Disallow: /
  • Denegar un directorio.¬†Disallow: /directorio/
  • Denegar directorios que comienzan por una palabra en concreto ‚Äúpalabra‚ÄĚ.¬†Disallow: /palabra*/
  • Denegar acceso a una p√°gina.¬†Disallow: /pagina-web.html
  • Denegar acceso a directorios y p√°ginas que comienzan por una palabra en concreto ‚Äúpalabra‚ÄĚ.¬†Disallow: /palabra
  • Denegar acceso a una extensi√≥n en concreto como .php.¬†Disallow: /*.php$
  • Permitir un subdirectorio.¬†Allow: /directorio/subdirectorio/
  • Indicar donde est√° el mapa del sitio. Sitemap:

Cómo crear un archivo robots.txt para WordPress

Crear o modificar el archivo robots.txt en WordPress será muy sencillo ya que podrás hacerlo mediante la instalación de un simple plugin.

En caso de optar por este método (Yo soy más escribir mi robots.txt en un bloc de notas y subirlo luego vía FTP) podrás hacerlo mediante el plugin de WordPress Robots Rewrite.

No obstante, si usas alg√ļn plugin de SEO como Yoast SEO o All In One SEO tambi√©n podr√°s modificar este archivo sin necesidad de hacerlo mediante FTP.

De todos modos, para que puedas cambiar el archivo robots directamente desde el panel de control de WordPress necesitar√°s que tus proveedores de hosting te lo permitan ya que mucho de ellos no te dejar√°n por cuestiones de seguridad.

De todos modos, si deseas modificar directamente tu archivo robots.txt desde el panel de tu WordPress con el plugin Yoast SEO tendrás que seguir la siguiente guía:

  1. Accede a tu panel de control de WordPress.
  2. En la columna de la izquierda haz click sobre SEO (Icono de Yoast SEO) y posteriormente sobre “Herramientas”.
  3. Despu√©s haz click sobre “Editor de archivos”.
  4. Modifica el texto que aparecer√° para el robots.txt y pulsa en guardar.

Cómo crear el archivo robots.txt si mi página web no es WordPress

En caso de que tu página web no sea WordPress siempre te quedará la opción de crear el robots.txt a mano y subirlo vía FTP. Para ello, simplemente tendrás que abrir un bloc de notas y guardarlo con el nombre de robots.txt

Con el archivo creado correctamente con sus directivas (Aseg√ļrate de que lo has hecho bien y que contiene la extensi√≥n .txt). Sube est√© archivo a la carpeta ra√≠z donde tengas instalado tu WordPress. Para ello, yo utiliza el gestor de FTP FileZilla.

Una vez tengas instalado Filezilla introduce los datos de tu hosting (Servidor, usuario y contrase√Īa que te proporciona tu proveedor) en el programa para que este pueda acceder a tu servidor.

Cuando esté todo configurado y hayas conseguido conectarte con tu hosting vía FTP bastará con subir este archivo robots.txt dentro de la carpeta donde esté tu WordPress. Esta carpeta normalmente se llamará public_html/ o www/

Cómo validar que se ha hecho bien el archivo robots.txt con Search Console

Si no estas seguro de si has creado correctamente las directivas del archivo robots.txt, Google mediante su herramienta Search Console te permitir√° validar el archivo robots.txt para comprobar posibles errores.

Para ello, simplemente tendr√°s que acceder a la siguiente URL (https://www.google.com/webmasters/tools/robots-testing-tool) y seleccionar la propiedad sobre la que deseas hacer comprobaciones del robots.

En esta nueva ventana podrás introducir el código que has creado para tu robots y comprobar si te has equivocado en alguna línea o si estás bloqueando alguna URL en concreto de tu página web que no deseas.

¬ŅRealmente existe el robots.txt perfecto para tu p√°gina web? Conclusi√≥n

Cómo habrás podido comprobar a lo largo de este post y como suele ocurrir en SEO no hay una solución universal a un problema. Cada página web es distinta y por ello el robots de cada una debería de ser distinto.

Es verdad que si tu página web es un simple blog en WordPress sin demasiadas complicaciones y cosas raras el código que te voy a dejar aquí podrá servirte como base.

[sociallocker id=”6039″]

User-agent: *
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: *?replytocom
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
Sitemap: https://borjaarandavaquero.com/sitemap_index.xml

[/sociallocker]

Sin embargo, lo más óptimo será analizarás bien las necesidades de tu página web y ver que páginas quieres que sean rastreadas y cuáles no para bloquearlas por robots si así se estima necesario.

Por lo tanto, te recomiendo que inviertas un poco de tiempo en analizar dichas necesidades para así crear un robots.txt personalizado para tu página web.

Si tienes alguna pregunta no dudes en dejarla en los comentarios que para eso estamos.

¡Hasta la próxima!

borja aranda cuadrado

Artículo escrito por:

Borja Aranda Vaquero

Propietario de este bonito blog sobre SEO, WordPress y dise√Īo web. Mi intenci√≥n es ayudar a empresas y emprendedores a conseguir las primeras posiciones en Google con el fin de que generen nuevos ingresos y clientes a trav√©s de internet.

Responsable: Borja Aranda Vaquero

Finalidad: Moderar y responder comentarios de usuarios

Legitimación : Consentimiento.

Destinatarios: Todos tus datos los guardará Disqus. Mi sistema de comentarios (Acogido al acuerdo de seguridad EU-US Privacy). 

Derechos: Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en legal [@] borjaarandavaquero.com así como el derecho a presentar una reclamación ante una autoridad de control.

Información adicional: En la Política de Privacidad de borjaarandavaquero.com,  encontrarás información adicional sobre la recopilación y el uso de su información personal ,incluida información sobre acceso, conservación, rectificación, eliminación, seguridad, y otros temas.

suscribirse al blog

¬ŅTE GUSTA EL CONTENIDO?

¬°S√ļscr√≠bete y no te pierdas ni uno m√°s!

+ 2 Ebooks SEO DE REGALO