Cómo hacer un robots txt para WordPress

Cómo conseguir el mejor robots.txt para tu WordPress [GUÍA]

¡Muy buenas querido lector! Ya estoy una semana más por aquí y, en esta ocasión vengo ha hablarte sobre uno de los archivos SEO más importantes del SEO, el archivo robotst.txt.

¿Sabes de que te estoy hablando?

Si la respuesta es no, no te preocupes.

Estoy seguro de que tras leer este post sobre el archivo robotx.txt tendrás mucho más claro que es este archivo, para que sirve y como generarlo en una página web WordPress cómo un auténtico consultor SEO profesional.

De todos modos, si por un casual simplemente has llegado a este post para conseguir un modelo universal de archivo robots.txt para tu WordPress no te haré leer todo el post, aquí lo tienes:

 				 					User-agent: *   Disallow: /wp-login   Disallow: /wp-admin   Allow: /wp-admin/admin-ajax.php Disallow: /*/feed/   Disallow: /*/trackback/   Disallow: /*/attachment/   Disallow: /author/   Disallow: *?replytocom   Disallow: /tag/*/page/   Disallow: /tag/*/feed/   Disallow: /comments/   Disallow: /xmlrpc.php   Disallow: /*?s=   Disallow: /*/*/*/feed.xml   Disallow: /?attachment_id*   Sitemap: https://tudominio.com/sitemap_index.xml 				 			

Sin embargo, si eres de los que busca aprender, en este post aprenderás cómo crear un archivo robots personalizado y único para tu página web con el que optimizar el crawl budget o presupuesto de rastreo y, mejorar así el presupuesto de rastreo tu página web.

¡Vamos al lío!

¿Qué es el robots.txt?

El archivo robots.txt es un archivo plano que contiene unas indicaciones específicas para los bots que rastreen tu página web (Cómo el bot de Google o el de Bing).

De hecho, lo primero que hace un bot antes incluso de rastrear una página web es analizar el archivo robots.txt para conocer sus directrices y ver si se le esta permitido el acceso a todas y cada una de las URLs de la página web.

¿Para qué sirve el archivo robots.txt?

El archivo robots te servirá para denegar el rastreo de los bots a ciertas URLs de tu página web.

Por así decirlo, con este archivo proporcionarás directivas a los bots tipo:

“No está permitido que accedas a esta parte de la página web para leer sus contenidos”

De todos modos, al igual que el archivo robots.txt te servirá para limitar el acceso a determinadas URLs también este archivo te servirá para indicar a los bots a que directorios o URLs podrán acceder para leer y rastrear sus contenidos.

Además, en este archivo podrás proporcionar información extra cómo el intervalo de tiempo que tendrán los bots entre rastreo de diferentes URLs para así reducir el consumo de recursos en tu servidor.

Por si esto fuera poco, en este archivo también podrás indicar donde se encontrarán los diferentes sitemaps de tu página web para que los bots sean capaz de encontrarlos fácilmente en tu página web.

¿Por qué será importante el archivo robots.txt en SEO?

Cómo has visto anteriormente, el archivo robots.txt será importante para SEO puesto que:

  • Con el podrás delimitar el acceso a determinadas URLs de tu página web que no sean importantes por motivos de negocio o de SEO y optimizar así el presupuesto de rastreo de tu página web.
  • Podrás permitir o denegar el acceso a determinados bots para evitar así que te dupliquen el contenido o te saturen el servidor.
  • En este archivo indicarás los sitemaps de tu página web para que los buscadores los encuentren rápidamente.
  • El archivo robots.txt será el archivo más ligero de tu página web y, por este motivo, será el archivo perfecto para ser analizado vía PageSpeed Insight de Google y conocer la velocidad real de tu servidor para saber si has elegido un buen hosting.

¿Para qué no servirá el robots.txt?

Por desgracia, existen una serie de mitos SEO sobre el archivo robots que hoy te demostraré ya que podrán inducirte a error.

El robots.txt servirá para ocultar directorios

Falso.

¿Por qué?

Sencillo, si capas cualquier URL o grupo de URLs vía robots todo el mundo podrá saberlo puesto que el archivo robots es público y siempre estará en la la misma dirección, es decir, tudominio.com/robots.txt.

¿Quieres ver el mío? ¡Adelante!

Por lo tanto, para ocultar o proteger algún directorio la mejor opción no será hacerlo vía robots…

Lo mejor caso será establecer un noindex, nofollow para ese directorio y dejar dicho directorio huérfano (Sin enlaces internos/externos).

El robots.txt te ayudará a desindexar tu contenido

Falso.

Para desindexar una URL de Google deberás ir a la sección «Retirada de URLs» de tu Search Console.

De hecho, si «capas» por robots una URL Google no podrá acceder a ella y, no podrá desindexarla por mucho que utilices la herramienta de Search Console o etiquetes la URL con un noindex.

Parámetros aceptados por el archivo robots

Una vez visto que es el robots.txt y para que sirve será el momento de conocer que parámetros podrás encontrar en él.

A la hora de redactar el archivo robots.txt deberás saber que este sigue un convenio universal llamado Robots Exclusión Protocol.

Esto provoca que en él solo se podrán utilizar una serie de comandos cómo lo que te mostraré a continuación (Algunos buscadores cuentan con sus propios parámetros adicionales aunque estos no serán universales).

Por si esto fuera poco, el archivo robots hace distinción entre mayúsculas, minúsculas, la puntuación y los espacios.

Además, se aplica la máxima de una línea, una directiva.

Dicho esto, los comandos que podrás encontrar en un archivo robots.txt serán:

User-agent del robots.txt

Con el User-agent del robots indicarás qué bot deberá cumplir las directivas que se estipulen en las líneas posteriores.

Disallow del robots.txt

El comando disallow denegará el acceso a un directorio o URL de la página web. 

Allow del robots.txt

Es el contrario a la directiva Disallow.

Esta directiva permitirá el acceso a determinados directorios o URLs.

De hecho, se suele utilizar para sobrescribir la directiva disallow de forma parcial o total.

Sitemap del robots.txt

El comando sitemap del robots.txt indicará a los bots la URL donde podrán encontrar el sitemap XML de la página web.

Crawl-delay del robots.txt

Esta directiva indicará al bot el número de segundos que deberá esperar entre cada rastreo de URL.

De hecho, esta directiva te ayudará a optimizar los recursos del servidor.

Asterisco (*) en el archivo del robots.txt

Esta expresión servirá para comenzar una secuencia cualquiera de caracteres.

Por ejemplo, todos los directorios que empiezan por “privado” serán:

/privado*/

Dólar ($) en el archivo del robots.txt

El símbolo del dólar indicará el final de una URL.

Por ejemplo, para indicar cualquier archivo que acabe con la extensión .PHP deberás utilizar esta expresión:

/*.php$

Directivas que podrás encontrar a la hora de generar un archivo robots.txt

Dentro del archivo robots.txt podrás crear una serie de restricciones para que el bot no pueda pasar por allí.

Sin embargo, te recomiendo que ser cauto con estás restricciones ya que será más fácil de lo que parece cometer un error y restringir el acceso del bot a una parte importante de tu páginas web.

Por este motivo, a continuación te daré una serie de restricciones típicas que podrás encontrar en este tipo de archivos:

  • Incluir todos los robots. User-agent: *
  • Especificar el bot de Google. User-agent: Googlebot
  • Especificar el bot de Bing. User-agent: Bingbot
  • Especificar el bot de Yandex. User-agent: Yandex
  • Denegar el acceso a toda la página web. Disallow: /
  • Denegar el acceso a un directorio determinado. Disallow: /directorio/
  • Denegar directorios que comiencen por una palabra en concreto. Disallow: /palabra*/
  • Denegar el acceso a una URL determinada. Disallow: /pagina-web.html
  • Denegar el acceso a directorios o URLs que comiencen por una palabra en concreto. Disallow: /palabra
  • Denegar el acceso a una extensión web concreta. Disallow: /*.php$
  • Permitir el acceso a un subdirectorio. Allow: /directorio/subdirectorio/
  • Indicar donde está el sitemap de la página web. Sitemap:

¿Cómo crear un archivo robots.txt para WordPress? [GUÍA]

Crear o modificar el archivo robots.txt en WordPress será muy sencillo ya que podrás hacerlo mediante la instalación de un simple plugin.

Para ello podrás utilizar el plugin de WordPress Robots Rewrite (Aunque soy más escribir mi robots.txt en un bloc de notas y subirlo luego vía FTP).

No obstante, si usas algún plugin de SEO como Yoast SEO, All In One SEO o Rank Math también podrás modificar tu robots.txt directamente desde tu WordPress sin necesidad de hacerlo vía FTP.

De todos modos, para que puedas modificar el archivo robots directamente desde tu WordPress necesitarás que tu proveedor de hosting te lo permita ya que mucho de ellos no te lo permitirán por motivos de seguridad.

Guía para crear o modificar archivo robots.txt con Yoast SEO en WordPress

Si deseas modificar directamente tu archivo robots.txt desde tu WordPress con el plugin Yoast SEO deberás que seguir estos pasos:

  1. Accede a tu panel de control de WordPress.
  2. En la columna de la izquierda haz click sobre SEO (Icono de Yoast SEO) y posteriormente sobre «Herramientas».
  3. Después haz clic sobre «Editor de archivos».
  4. Modifica o añade el texto que necesites en la caja robots.txt.
  5. Cuando lo tengas listo pulsa en guardar.

Ejemplo de Robots.txt en Yoast SEO

¿Dónde estará el archivo robots.txt en WordPress?

Si ahora te estas preguntando dónde estará el archivo robots.txt en WordPress deberás saber que este se encontrará en la carpeta raíz de tu página web a la que podrás acceder directamente desde el panel de control de tu hosting o vía FTP.

Por otro lado, si simplemente quieres echar un vistazo al archivo robots de cualquier página web deberás saber que este siempre estará colgado del dominio principal, es decir:

tudominio.com/robots.txt

Ejemplos de archivos robots.txt para tu WordPress

Si lo que buscas son ejemplos de archivos robots.txt para tu WordPress ¡Estás de enhorabuena!

A continuación te dejaré una serie de robots para diferentes tipos de páginas web WordPress

Ejemplo de robots.txt por defecto para WordPress

Este ejemplo de robots.txt te servirá para un WordPress estándar:

 				 					User-agent: *  Disallow: /wp-admin/  Allow: /wp-admin/admin-ajax.php 				 			

Ejemplo de robots.txt para un blog de WordPress

Este ejemplo de robots.txt te servirá para cualquier blog de WordPress:

 				 					User-agent: *   Disallow: /wp-login   Disallow: /wp-admin   Allow: /wp-admin/admin-ajax.php Disallow: /*/feed/   Disallow: /*/trackback/   Disallow: /*/attachment/   Disallow: /author/   Disallow: *?replytocom   Disallow: /tag/*/page/   Disallow: /tag/*/feed/   Disallow: /comments/   Disallow: /xmlrpc.php   Disallow: /*?s=   Disallow: /*/*/*/feed.xml   Disallow: /?attachment_id*   Sitemap: https://tudominio.com/sitemap_index.xml 				 			

Ejemplo de robots.txt para WooCommerce

Este ejemplo de robots.txt te servirá para una tienda online de WordPress WooCommerce:

 				 					#es necesario personalizar algunas opciones o puede dar problemas        # Bloqueo basico para todos los bots y crawlers  # puede dar problemas por bloqueo de recursos en GWT  User-agent: *  Allow: /wp-content/uploads/*  Allow: /wp-content/*.js  Allow: /wp-content/*.css  Allow: /wp-includes/*.js  Allow: /wp-includes/*.css  Disallow: /cgi-bin  Disallow: /wp-content/plugins/   Disallow: /wp-content/themes/   Disallow: /wp-includes/   Disallow: /*/attachment/  Disallow: /tag/*/page/  Disallow: /tag/*/feed/  Disallow: /page/  Disallow: /comments/  Disallow: /xmlrpc.php  Disallow: /?attachment_id*     # Bloqueo de las URL dinamicas  Disallow: /*?        #Bloqueo de busquedas  User-agent: *  Disallow: /?s=   Disallow: /search        # Bloqueo de trackbacks  User-agent: *  Disallow: /trackback  Disallow: /*trackback  Disallow: /*trackback*  Disallow: /*/trackback        # Bloqueo de feeds para crawlers  User-agent: *  Allow: /feed/$   Disallow: /feed/   Disallow: /comments/feed/  Disallow: /*/feed/$   Disallow: /*/feed/rss/$   Disallow: /*/trackback/$   Disallow: /*/*/feed/$   Disallow: /*/*/feed/rss/$   Disallow: /*/*/trackback/$   Disallow: /*/*/*/feed/$   Disallow: /*/*/*/feed/rss/$   Disallow: /*/*/*/trackback/$        # Ralentizamos algunos bots que se suelen volver locos  User-agent: noxtrumbot  Crawl-delay: 20  User-agent: msnbot  Crawl-delay: 20  User-agent: Slurp  Crawl-delay: 20        # Bloqueo de bots y crawlers poco utiles  User-agent: MSIECrawler  Disallow: /   User-agent: WebCopier   Disallow: /   User-agent: HTTrack   Disallow: /   User-agent: Microsoft.URL.Control   Disallow: /   User-agent: libwww   Disallow: /   User-agent: Orthogaffe   Disallow: /   User-agent: UbiCrawler   Disallow: /   User-agent: DOC   Disallow: /   User-agent: Zao   Disallow: /   User-agent: sitecheck.internetseer.com   Disallow: /   User-agent: Zealbot   Disallow: /   User-agent: MSIECrawler   Disallow: /   User-agent: SiteSnagger   Disallow: /   User-agent: WebStripper   Disallow: /   User-agent: WebCopier   Disallow: /   User-agent: Fetch   Disallow: /   User-agent: Offline Explorer   Disallow: /   User-agent: Teleport   Disallow: /   User-agent: TeleportPro   Disallow: /   User-agent: WebZIP   Disallow: /   User-agent: linko   Disallow: /   User-agent: HTTrack   Disallow: /   User-agent: Microsoft.URL.Control   Disallow: /   User-agent: Xenu   Disallow: /   User-agent: larbin   Disallow: /   User-agent: libwww   Disallow: /   User-agent: ZyBORG   Disallow: /   User-agent: Download Ninja   Disallow: /   User-agent: wget   Disallow: /   User-agent: grub-client   Disallow: /   User-agent: k2spider   Disallow: /   User-agent: NPBot   Disallow: /   User-agent: WebReaper   Disallow: /        # Previene problemas de recursos bloqueados en Google Webmaster Tools  User-Agent: Googlebot  Allow: /*.css$  Allow: /*.js$        # En condiciones normales este es el sitemap  Sitemap: https://tudominio.com/indice-sitemap.xml     # Si utilizas Yoast SEO estos son los sitemaps principales  Sitemap: https://tudominio.com/indice-sitemap.xml  Sitemap: https://tudominio.com/page-sitemap.xml  Sitemap: https://tudominio.com/page-sitemap.xml  Sitemap: https://tudominio.com/page-sitemap.xml 				 			

Cómo crear el archivo robots.txt de tu página web si esta no es WordPress

En caso de que tu página web no sea WordPress siempre tendrás la opción de crear tu archivo robots.txt a mano y subirlo vía FTP (Salvo que utilices otro CMS o gestor de contenidos que tenga un complemento o extra que lo haga de forma automática).

Para ello, lo primero será abrir un bloc de notas y guardarlo con el nombre de robots.txt

Una vez creado y redactado el archivo correctamente con sus correspondientes directivas (Asegúrate de que lo has hecho bien y que contiene la extensión .txt) sube esté archivo a la carpeta raíz donde tengas instalada tu página web(Para esta tarea te recomendaré utilizar el gestor de FTP FileZilla).

Una vez tengas instalado Filezilla en tu ordenador introduce los datos de acceso al FTP de tu hosting (Servidor, usuario y contraseña que te proporciona tu hosting) en el programa para que este pueda acceder a tu servidor.

Cuando esté todo configurado y hayas conseguido conectarte con tu hosting vía FTP bastará con subir este archivo robots.txt dentro de la carpeta donde se encuentre la instalación de tu páginaweb.

Esta carpeta normalmente se llamará public_html/ o www/

¿Cómo comprobar que tu archivo robots.txt es correcto?

Si no estas seguro de haber creado correctamente las directivas de tu archivo robots.txt Google te ofrecerá una herramienta gratuita que te permitirá validar tu archivo robots.txt para comprobar que este sea correcto y evitar así posibles errores.

Para ello, simplemente tendrás que acceder a la siguiente URL (https://www.google.com/webmasters/tools/robots-testing-tool) y seleccionar la propiedad sobre la que desees hacer las  comprobaciones de tu archivo robots.

En esta nueva ventana podrás introducir el código que hayas escrito para tu robots y comprobar si te has equivocado en alguna línea o estás bloqueando alguna URL concreta de tu página web que no deberías.

YouTube video

Conclusiones: ¿Existe el robots.txt perfecto para tu página web?

Cómo habrás podido comprobar a lo largo de este post y, como suele ocurrir frecuentemente en SEO, no existirá una solución universal de robots.txt.

Ten en cuenta que cada página web es distinta y, por este motivo, el robots.txt de cada página web deberá ser distinto.

De todos modos, es cierto que si tu página web es un simple blog de WordPress sin demasiadas complicaciones el código que te dejaré aquí podrá servirte como base:

[sociallocker id=»19824″]

 				 					User-agent: *   Disallow: /wp-login   Disallow: /wp-admin   Allow: /wp-admin/admin-ajax.php Disallow: /*/feed/   Disallow: /*/trackback/   Disallow: /*/attachment/   Disallow: /author/   Disallow: *?replytocom   Disallow: /tag/*/page/   Disallow: /tag/*/feed/   Disallow: /comments/   Disallow: /xmlrpc.php   Disallow: /*?s=   Disallow: /*/*/*/feed.xml   Disallow: /?attachment_id*   Sitemap: https://tudominio.com/sitemap_index.xml 				 			
[/sociallocker]

Sin embargo, lo más óptimo será analizar las necesidades de tu página web y ver que URLs deberán ser rastreadas y cuáles no para bloquearlas vía robots si así fuese necesario.

Por lo tanto, te recomiendo que inviertas un poco de tiempo a la hora de analizar las necesidades de tu página web para así crear un robots.txt personalizado para tu página web.

Ahora te toca a ti querido lector ¿Conocías todo esto sobre este archivo? ¿Has personalizado ya tu archivo robots? ¡Cuéntamelo en los comentarios!

¡Hasta la próxima!

¡Espera! Seguro que estos artículos también te interesan:
Borja Aranda Vaquero 01

Artículo escrito por:

Borja Aranda Vaquero

¡Hola! Me presento. Me llamo Borja y me dedico a incrementar la visibilidad de negocios en internet. Actualmente he ayudado a más de 100 empresas a conseguir una buena visibilidad en internet.

¿Quieres saber más?

¿Necesitas mejorar tu posicionamiento web?

Si quieres posicionar en primera la primera posición tu página web ¡Escríbeme!

¡Suscríbete a este blog!

Y consigue en tu email las últimas novedades en SEO, WordPress y CRO además de un ebook con tres trucos infalibles sobre SEO, WPO y CRO.

También podrás escribirme a: