¿Qué es Robots.txt?
Robots.txt es un archivo de texto y un fragmento de código que indica a los robots de rastreo cómo moverse por un sitio web. Es una directiva, lo que significa que guía a los robots r astreadores hacia las páginas web adecuadas. Básicamente, indica a los motores de búsqueda qué páginas deben rastrear.
Si alguna vez has conducido por una ruta nueva sin GPS, conoces la importancia de las señales de tráfico. Mientras conduces, estas señales te indican dónde tienes que girar, qué salidas debes tomar y en qué carriles debes situarte para llegar a tu destino. Sin esas señales, tendrías muchas posibilidades de equivocarte de camino.
Adivina. Google también necesita señales de tráfico. Pero no para conducir por la carretera, sino para rastrear su sitio web. Por supuesto, podría rastrear a lo loco, pero eso no sería bueno para la optimización de su motor de búsqueda (SEO). No, usted quiere que Google rastree páginas específicas de maneras específicas. Para ello, debe dar instrucciones a los rastreadores.
Los archivos robots.txt son la forma de hacerlo. Pero, ¿qué son los archivos robots.txt y cómo afectan a su SEO? En esta página, vamos a cubrir:
- ¿Qué es un archivo robots.txt?
- Cómo afecta robots.txt al SEO
- ¿Cuándo se debe actualizar un archivo robots.txt?
- Problemas comunes con los archivos robots.txt
- 5 ejemplos de archivos robots.txt
Siga leyendo para obtener más información sobre el uso de robots.txt para SEO.
¿Qué es un robots.txt?
Robots.txt es un archivo de texto y un fragmento de código que indica a los robots de rastreo cómo moverse por un sitio web. Es una directiva, lo que significa que guía a los robots r astreadores hacia las páginas web adecuadas. Básicamente, indica a los motores de búsqueda qué páginas deben rastrear.
Cómo afecta robots.txt al SEO
Lo principal que hacen los archivos robots.txt es indicar a Google qué páginas debe rastrear y cuáles no , aunque no controla totalmente lo que hace Google. Estas directivas son sugerencias, no órdenes. Para impedir por la fuerza que Google rastree una página, necesitaría meta directivas noindex, no solo archivos robots.txt.
A primera vista, podría parecer que desea que todas las páginas de su sitio web aparezcan en los resultados de búsqueda. Eso es SEO máximo, ¿verdad?
Bueno, no exactamente. Para muchas páginas de su sitio, eso es cierto. Pero es probable que también haya algunas páginas que no quiera que aparezcan en el ranking. Por ejemplo, digamos que alguien hace una compra en su tienda en línea, y luego son recibidos por una página que dice: "Gracias por su compra".
"Google sólo indexa imágenes y vídeos que Googlebot puede rastrear".
Ahora imagine que alguien busca su empresa en los resultados de búsqueda y encuentra esa página. No tendría sentido que una página de "Gracias por su compra" apareciera en los resultados de búsqueda de personas que no han realizado ninguna compra. Esa es una página que no quieres que aparezca.
Lo más probable es que tenga unas cuantas páginas en su sitio en las que ese sea el caso. Lo mismo ocurre con las páginas de inicio de sesión y las páginas duplicadas. Robots.txt impide que Google clasifique esas páginas y se centra en rastrear las páginas que desea que aparezcan en las búsquedas, como las entradas de blog y las páginas de servicios.
¿Cuándo se debe actualizar un archivo robots.txt?
Incluso después de crear un archivo robots.txt, es probable que necesite actualizarlo en algún momento. Pero, ¿cuándo tendría que hacerlo exactamente?
Estas son algunas ocasiones en las que podría actualizar su archivo robots.txt:
- Al migrar a un nuevo sistema de gestión de contenidos (CMS)
- Si desea mejorar la forma en que Google rastrea su sitio web
- Cuando añada una nueva sección o subdominio a su sitio web
- Cuando se cambia totalmente a un nuevo sitio web
Todos estos cambios requieren que vaya y edite su archivo robots.txt para reflejar lo que está sucediendo en su sitio.
Problemas comunes con los archivos robots.txt
A veces, los sitios web experimentan problemas al utilizar robots.txt. Un posible problema es que el archivo impida que Google (u otros motores de búsqueda) rastree su sitio web. Si descubres que algo así está ocurriendo, deberás actualizar tu archivo robots.txt para solucionarlo.
Otro posible problema es que haya datos confidenciales o privados en algún lugar de su sitio (privados para su empresa o para sus clientes) y que el archivo robots.txt no los bloquee, lo que permitiría a Google rastrearlos libremente. Se trata de una infracción grave, por lo que debe asegurarse de bloquear esos datos para que no los rastreen.
5 ejemplos de archivos robots.txt
Existen varios tipos de archivos robots.txt que puede utilizar. Vamos a repasar algunos de esos tipos a continuación:
Permitir que todos
Un ejemplo de archivo robots.txt es un directorio "Permitir todo". Este tipo de archivo indica que todos los robots pueden rastrear su sitio web. El comando "Permitir todo" tiene el siguiente aspecto:
User-agent: *
Rechazar:
Rechazar todo
El comando "Disallow all" es exactamente lo contrario del comando "Allow all". Básicamente dice que no se permite a ningún tipo de bot rastrear su sitio, bloqueándolo por completo. Este comando tiene un aspecto casi idéntico al de "Permitir todo", con la única diferencia de que se añade una barra:
User-agent: *
No permitir: /
No permitir un bot
A veces no quieres bloquear a todos los robots para que no rastreen tu sitio, sino sólo a algunos. En ese caso, puede utilizar el comando para desautorizar a un bot específico. Este comando tiene el siguiente aspecto:
Usuario-agente: Twitterbot
No permitir: /
User-agent: *
Rechazar:
En el ejemplo anterior, hemos bloqueado Twitterbot para que no rastree el sitio web. Sin embargo, puedes hacer esto para cualquier bot que desees.
Bloquear una carpeta
No siempre se trata de bloquear bots. A veces está bien que cualquier bot rastree su sitio, sólo que no quiere que puedan acceder a ciertas carpetas. En ese caso, puedes utilizar este comando para bloquear el acceso a una carpeta en particular:
User-agent: *
No permitir: /admin/
En este ejemplo, hemos bloqueado la parte de administración del sitio. Esta es una de las áreas más comunes que los propietarios de sitios web bloquean a los rastreadores. Sin embargo, puedes sustituir la palabra "admin" por una parte diferente de tu sitio si hay otra carpeta que quieras bloquear.
Bloquear un fichero
Por último, es posible que desee bloquear un archivo específico en lugar de toda una carpeta. En ese caso, utilizaría el siguiente formato de comando:
User-agent: *
No permitir: /demo23.html
En este ejemplo, el comando está bloqueando un archivo llamado "demo23.html". Pero usted lo reemplazaría por cualquier archivo específico que estuviera tratando de bloquear.
Más consejos y trucos sobre SEO en SEO.com
Si desea obtener más información sobre el uso de robots.txt para SEO - junto con toneladas de otras tácticas de SEO útiles - ya está en el lugar correcto. Asegúrese de revisar algunos otros artículos útiles aquí en SEO.com o póngase en contacto con uno de nuestros estrategas acerca de nuestros servicios técnicos de SEO que pueden ayudarle a optimizar su archivo robots.txt para el máximo rendimiento SEO.
Obtengamos resultados Juntos
Escritores
Recursos relacionados
- Subdominios para SEO: ¿Debe utilizarlos? ¿Por qué sí y por qué no?
- Lista de comprobación SEO 2024 para el rediseño de sitios web
- ¿Qué son los sitemaps (y por qué utilizarlos en SEO)?
- ¿Qué ocurre si es objeto de un ataque SEO?
- ¿Qué es el SEO de velocidad de página y cómo se puede optimizar?
- ¿Qué es Schema Markup? + Cómo implementarlo para SEO
- ¿Qué es la seguridad de un sitio web y cómo optimizarla?
- ¿Por qué Flash es malo para SEO? 6 razones para evitar Flash para SEO
- ¿Por qué es lento mi sitio web? 10 razones de la lentitud de carga de los sitios web
- 9 buenas prácticas de accesibilidad web que puede imitar