¿Qué es un archivo Robots.txt y por qué es importante?

Aprenda cómo los archivos robots.txt desempeñan un papel crucial a la hora de dirigir los robots de rastreo a las páginas web correctas, optimizar la clasificación en los motores de búsqueda y descubra los tipos de archivos robots.txt, los problemas más comunes y mucho más.

Escrito por Matthew Gibbons

Última actualización 1 de noviembre de 2023

¿Qué es Robots.txt?

Robots.txt es un archivo de texto y un fragmento de código que indica a los robots de rastreo cómo moverse por un sitio web. Es una directiva, lo que significa que guía a los robots r astreadores hacia las páginas web adecuadas. Básicamente, indica a los motores de búsqueda qué páginas deben rastrear.

Si alguna vez has conducido por una ruta nueva sin GPS, conoces la importancia de las señales de tráfico. Mientras conduces, estas señales te indican dónde tienes que girar, qué salidas debes tomar y en qué carriles debes situarte para llegar a tu destino. Sin esas señales, tendrías muchas posibilidades de equivocarte de camino.

Adivina. Google también necesita señales de tráfico. Pero no para conducir por la carretera, sino para rastrear su sitio web. Por supuesto, podría rastrear a lo loco, pero eso no sería bueno para la optimización de su motor de búsqueda (SEO). No, usted quiere que Google rastree páginas específicas de maneras específicas. Para ello, debe dar instrucciones a los rastreadores.

Los archivos robots.txt son la forma de hacerlo. Pero, ¿qué son los archivos robots.txt y cómo afectan a su SEO? En esta página, vamos a cubrir:

¿Qué es un archivo robots.txt?
Cómo afecta robots.txt al SEO
¿Cuándo se debe actualizar un archivo robots.txt?
Problemas comunes con los archivos robots.txt
5 ejemplos de archivos robots.txt

Siga leyendo para obtener más información sobre el uso de robots.txt para SEO.

¿Qué es un robots.txt?

Cómo afecta robots.txt al SEO

Lo principal que hacen los archivos robots.txt es indicar a Google qué páginas debe rastrear y cuáles no , aunque no controla totalmente lo que hace Google. Estas directivas son sugerencias, no órdenes. Para impedir por la fuerza que Google rastree una página, necesitaría meta directivas noindex, no solo archivos robots.txt.

A primera vista, podría parecer que desea que todas las páginas de su sitio web aparezcan en los resultados de búsqueda. Eso es SEO máximo, ¿verdad?

Bueno, no exactamente. Para muchas páginas de su sitio, eso es cierto. Pero es probable que también haya algunas páginas que no quiera que aparezcan en el ranking. Por ejemplo, digamos que alguien hace una compra en su tienda en línea, y luego son recibidos por una página que dice: "Gracias por su compra".

"Google sólo indexa imágenes y vídeos que Googlebot puede rastrear".

Central de Búsqueda de Google Fuente

Ahora imagine que alguien busca su empresa en los resultados de búsqueda y encuentra esa página. No tendría sentido que una página de "Gracias por su compra" apareciera en los resultados de búsqueda de personas que no han realizado ninguna compra. Esa es una página que no quieres que aparezca.

Lo más probable es que tenga unas cuantas páginas en su sitio en las que ese sea el caso. Lo mismo ocurre con las páginas de inicio de sesión y las páginas duplicadas. Robots.txt impide que Google clasifique esas páginas y se centra en rastrear las páginas que desea que aparezcan en las búsquedas, como las entradas de blog y las páginas de servicios.

¿Cuándo se debe actualizar un archivo robots.txt?

Incluso después de crear un archivo robots.txt, es probable que necesite actualizarlo en algún momento. Pero, ¿cuándo tendría que hacerlo exactamente?

Estas son algunas ocasiones en las que podría actualizar su archivo robots.txt:

Al migrar a un nuevo sistema de gestión de contenidos (CMS)
Si desea mejorar la forma en que Google rastrea su sitio web
Cuando añada una nueva sección o subdominio a su sitio web
Cuando se cambia totalmente a un nuevo sitio web

Todos estos cambios requieren que vaya y edite su archivo robots.txt para reflejar lo que está sucediendo en su sitio.

Problemas comunes con los archivos robots.txt

A veces, los sitios web experimentan problemas al utilizar robots.txt. Un posible problema es que el archivo impida que Google (u otros motores de búsqueda) rastree su sitio web. Si descubres que algo así está ocurriendo, deberás actualizar tu archivo robots.txt para solucionarlo.

Otro posible problema es que haya datos confidenciales o privados en algún lugar de su sitio (privados para su empresa o para sus clientes) y que el archivo robots.txt no los bloquee, lo que permitiría a Google rastrearlos libremente. Se trata de una infracción grave, por lo que debe asegurarse de bloquear esos datos para que no los rastreen.

5 ejemplos de archivos robots.txt

Existen varios tipos de archivos robots.txt que puede utilizar. Vamos a repasar algunos de esos tipos a continuación:

Permitir que todos

Un ejemplo de archivo robots.txt es un directorio "Permitir todo". Este tipo de archivo indica que todos los robots pueden rastrear su sitio web. El comando "Permitir todo" tiene el siguiente aspecto:

User-agent: *

Rechazar:

Rechazar todo

El comando "Disallow all" es exactamente lo contrario del comando "Allow all". Básicamente dice que no se permite a ningún tipo de bot rastrear su sitio, bloqueándolo por completo. Este comando tiene un aspecto casi idéntico al de "Permitir todo", con la única diferencia de que se añade una barra:

User-agent: *

No permitir: /

No permitir un bot

A veces no quieres bloquear a todos los robots para que no rastreen tu sitio, sino sólo a algunos. En ese caso, puede utilizar el comando para desautorizar a un bot específico. Este comando tiene el siguiente aspecto:

Usuario-agente: Twitterbot

No permitir: /

User-agent: *

Rechazar:

En el ejemplo anterior, hemos bloqueado Twitterbot para que no rastree el sitio web. Sin embargo, puedes hacer esto para cualquier bot que desees.

Bloquear una carpeta

No siempre se trata de bloquear bots. A veces está bien que cualquier bot rastree su sitio, sólo que no quiere que puedan acceder a ciertas carpetas. En ese caso, puedes utilizar este comando para bloquear el acceso a una carpeta en particular:

User-agent: *

No permitir: /admin/

En este ejemplo, hemos bloqueado la parte de administración del sitio. Esta es una de las áreas más comunes que los propietarios de sitios web bloquean a los rastreadores. Sin embargo, puedes sustituir la palabra "admin" por una parte diferente de tu sitio si hay otra carpeta que quieras bloquear.

Bloquear un fichero

Por último, es posible que desee bloquear un archivo específico en lugar de toda una carpeta. En ese caso, utilizaría el siguiente formato de comando:

User-agent: *

No permitir: /demo23.html

En este ejemplo, el comando está bloqueando un archivo llamado "demo23.html". Pero usted lo reemplazaría por cualquier archivo específico que estuviera tratando de bloquear.

Más consejos y trucos sobre SEO en SEO.com

Si desea obtener más información sobre el uso de robots.txt para SEO - junto con toneladas de otras tácticas de SEO útiles - ya está en el lugar correcto. Asegúrese de revisar algunos otros artículos útiles aquí en SEO.com o póngase en contacto con uno de nuestros estrategas acerca de nuestros servicios técnicos de SEO que pueden ayudarle a optimizar su archivo robots.txt para el máximo rendimiento SEO.