Guía completa para entender y crear un archivo robots.txt
Tabla de Contenidos
- 🤖 Qué es un archivo robots.txt
- 🔍 Cómo verificar si tu sitio web tiene un archivo robots.txt
- ✏️ Cómo crear un archivo robots.txt
- 🚫 Directiva "Disallow" en el archivo robots.txt
- 🆗 Directiva "Allow" en el archivo robots.txt
- 🔍 Cómo añadir múltiples sets de agentes de usuario
- *⁉️ Directiva "User-agent: " en el archivo robots.txt**
- 💡 Directiva "Crawl-delay" en el archivo robots.txt
- ⭐ Uso de comodines en el archivo robots.txt
- 📝 Añadir comentarios en el archivo robots.txt
- 🗺️ Vincular el mapa del sitio en el archivo robots.txt
- 🔄 Formato y formato de archivo robots.txt
- ❗ Los rastreadores pueden ignorar las directivas
- ✅ Cómo probar y evitar errores en el archivo robots.txt
🤖 Qué es un archivo robots.txt
Un archivo robots.txt es un archivo de texto simple que se encuentra en la raíz de un sitio web y tiene como función principal instruir a los motores de búsqueda y otros rastreadores sobre qué páginas o archivos pueden o no pueden acceder en el sitio web. Aunque muchos sistemas de gestión de contenido como WordPress generan automáticamente un archivo robots.txt, es importante asegurarse de que esté configurado correctamente para evitar problemas.
🔍 Cómo verificar si tu sitio web tiene un archivo robots.txt
Para comprobar si tu sitio web tiene un archivo robots.txt, puedes visitar el enlace "tudominio.com/robots.txt". Si el archivo existe, se mostrará su contenido en el navegador. Si no existe, se mostrará un mensaje indicando que no se encontró ningún archivo robots.txt.
✏️ Cómo crear un archivo robots.txt
Para crear un archivo robots.txt, simplemente debes abrir un editor de texto y guardar el archivo con el nombre "robots.txt". A continuación, debes colocarlo en la raíz de tu sitio web para que sea accesible para los motores de búsqueda.
🚫 Directiva "Disallow" en el archivo robots.txt
La directiva "Disallow" en el archivo robots.txt se utiliza para indicar a los rastreadores qué páginas o directorios no deben ser indexados. Por ejemplo, si no deseas que los rastreadores accedan a la carpeta de administración de WordPress, puedes utilizar la siguiente directiva:
User-agent: *
Disallow: /wp-admin/
Esto le indica a todos los rastreadores que no deben acceder a la carpeta "/wp-admin/".
🆗 Directiva "Allow" en el archivo robots.txt
La directiva "Allow" en el archivo robots.txt se utiliza para indicar a los rastreadores qué páginas o directorios pueden ser indexados. Sin embargo, cabe destacar que no todos los rastreadores respetan esta directiva. Por ejemplo, si deseas permitir que Google rastree una determinada página, pero no quieres que Bing lo haga, puedes utilizar la siguiente directiva:
User-agent: Googlebot
Allow: /ruta-pagina/
User-agent: Bingbot
Disallow: /ruta-pagina/
En este caso, le estás indicando a Google que puede rastrear la página "/ruta-pagina/", pero le estás diciendo a Bing que no la rastree.
🔍 Cómo añadir múltiples sets de agentes de usuario
En el archivo robots.txt, también puedes añadir múltiples sets de agentes de usuario para tener diferentes instrucciones para distintos rastreadores. Por ejemplo:
User-agent: Googlebot
Disallow: /carpeta-restringida/
User-agent: Bingbot
Disallow: /otra-carpeta-restringida/
User-agent: *
Disallow: /wp-admin/
En este caso, le estás indicando a Google que no puede acceder a la carpeta "/carpeta-restringida/", le estás diciendo a Bing que no puede acceder a la carpeta "/otra-carpeta-restringida/", y le estás diciendo a cualquier otro rastreador que no puede acceder a la carpeta de administración de WordPress.
⁉️ Directiva "User-agent: *" en el archivo robots.txt
La directiva "User-agent: *" en el archivo robots.txt se utiliza para aplicar las mismas instrucciones a todos los rastreadores. Por ejemplo:
User-agent: *
Disallow: /
En este caso, estás indicando que ningún rastreador puede acceder a ninguna página de tu sitio web.
💡 Directiva "Crawl-delay" en el archivo robots.txt
La directiva "Crawl-delay" en el archivo robots.txt se utiliza para indicar a los rastreadores cuántos segundos deben esperar antes de rastrear la siguiente página. Google no tiene en cuenta esta directiva, ya que prefiere que configures la velocidad de rastreo en Google Search Console, pero otros rastreadores como Yandex sí respetan esta directiva.
Por ejemplo:
User-agent: *
Crawl-delay: 5
En este caso, le estás diciendo a todos los rastreadores que esperen 5 segundos entre cada rastreo de página.
⭐ Uso de comodines en el archivo robots.txt
En el archivo robots.txt, puedes utilizar comodines para indicar múltiples URL a la vez. El comodín más comúnmente utilizado es el asterisco (*), que se usa para indicar cualquier grupo de caracteres.
Por ejemplo, si no deseas que los rastreadores accedan a cualquier URL que termine con "?S=mobile", puedes utilizar la siguiente directiva:
Disallow: /*?S=mobile
Esto le indica a los rastreadores que no deben acceder a ninguna URL que termine con "?S=mobile".
También puedes utilizar el signo de dólar ($) para indicar el final de una URL. Por ejemplo, si no deseas que se indexen los archivos PDF en tu sitio web, puedes utilizar la siguiente directiva:
Disallow: /*.pdf$
Esto le indica a los rastreadores que no deben acceder a ningún archivo con una extensión ".pdf" al final de la URL.
📝 Añadir comentarios en el archivo robots.txt
Puedes añadir comentarios en tu archivo robots.txt para hacer anotaciones o explicar ciertas instrucciones. Para hacerlo, simplemente debes comenzar la línea con el símbolo de numeral (#). Sin embargo, debes tener en cuenta que los comentarios no deben extenderse a una segunda línea.
🗺️ Vincular el mapa del sitio en el archivo robots.txt
Es recomendable incluir un enlace hacia el mapa del sitio en tu archivo robots.txt para que los rastreadores puedan encontrar fácilmente la estructura de tu sitio web. Puedes hacerlo al comienzo o al final del archivo utilizando la siguiente directiva:
Sitemap: https://www.tusitioweb.com/sitemap.xml
Debes reemplazar "https://www.tusitioweb.com/sitemap.xml" con la URL de tu propio mapa del sitio.
🔄 Formato y formato de archivo robots.txt
Al crear un archivo robots.txt, asegúrate de que el nombre del archivo esté todo en minúsculas. No debes utilizar mayúsculas o caracteres especiales en el nombre del archivo.
Además, es importante recordar que los rastreadores pueden seguir o ignorar las instrucciones del archivo robots.txt. Algunas herramientas que escanean páginas para obtener contenido, por ejemplo, pueden ignorar por completo las directivas.
❗ Los rastreadores pueden ignorar las directivas
Aunque el archivo robots.txt es una guía para los rastreadores, no siempre garantiza que se respeten todas las instrucciones. Algunos rastreadores pueden decidir ignorar ciertas directivas, especialmente aquellos que están diseñados para raspar el contenido de las páginas.
✅ Cómo probar y evitar errores en el archivo robots.txt
Después de crear tu archivo robots.txt, es importante probarlo para asegurarse de que está configurado correctamente y no contiene errores. Puedes utilizar la herramienta "Prueba del archivo robots.txt" de Google para comprobar si hay cualquier problema. Además, siempre es recomendable revisar detenidamente el archivo antes de implementarlo en tu sitio web y verificar que todas las directivas estén formuladas de la manera adecuada.
Esperamos que esta guía te haya ayudado a comprender la importancia y el uso de los archivos robots.txt en tu sitio web. Recuerda que estos pequeños archivos pueden tener un gran impacto en cómo los rastreadores acceden a tu contenido. Tómate el tiempo necesario para crear un archivo robots.txt correctamente y mantenerlo actualizado según las necesidades de tu sitio web. ¡Buena suerte!