¿Qué es?
Es un archivo de texto que se usa en los sitios web y se encuentra en la raiz del dominio. Es de acceso público, es decir que cualquiera lo puede ver y no es obligatorio tenerlo.
¿Para qué te sirve?
Para dejar instrucciones (comandos) a los robots de los motores de búsqueda, indicándoles qué páginas, directorios, etc, pueden rastrear y cuales no, evitando que aparezcan en los resultados de las búsquedas, por ejemplo de Google.
Para que lo entiendas mejor, primero tenés que saber que son los robots. También llamados bots, arañas, spiders o crawlers, son programas automáticos, utilizados por los motores de búsqueda (google, yahoo, bing, etc.) que recorren los sitios web buscando contenido nuevo, enlaces, cambios, etc. Su comportamiento varía según el bot del que se trate. Exploran, indexan información y la muestran en los resultados de las búsquedas.
Cuando los bots llegan a nuestro sitio, lo primero que leen es el archivo robots.txt, analizan las instrucciones que les dejamos, y de acuerdo a ellas, se van o buscan en los lugares que tienen permitidos. Generalmente siguen nuestras recomendaciones, pero ojo! No es obligatorio! A través del archivo robots.txt les estamos sugiriendo a los bots como queremos que se comporten.
Entonces, recapitulando, el archivo robots.txt te sirve para:
- Impedir que ciertas páginas, directorios o determinados archivos de tu sitio web sean explorados, indexados y mostrados como resultados de búsquedas (principalmente por ser contenido inútil, sin relevancia o duplicado).
- Indicar dónde se encuentra el mapa de tu sitio o sitemap (lista de páginas ordenadas jerárquicamente).
¿En qué casos no es conveniente que lo uses ?
Si querés ocultar páginas por razones de seguridad o privacidad, te aconsejo que no bloquees este contenido mediante el archivo el robots.txt, porque al ser un archivo público, cualquier persona puede acceder, con tan sólo tipear en un navegador “httpss://mi-sitio-web.com/robots.txt” y justamente enterarse que páginas querés esconder.
También, lo más probable, es que este archivo sea el primer lugar que miren los hackers, con el fin de dañar. Y por último, tené en cuenta, que los robots maliciosos seguramente van a ignorar los comandos que dejamos en el archivo robots.txt.
¿Cómo se crea?
Con un bloc de notas o la aplicación que prefieras, creá un documento de texto , escribí los comandos(instrucciones) que querés que se apliquen, guardalo con el nombre “robots.txt” (tiene que ser en minúscula) y luego, lo subís a la raíz de tu sitio, por ej. httpss://mi-sitio-web.com/robots.txt .
¿Es recomendable tenerlo?
Si, lo es, aunque sea con un mínimo de información. Eso sí, comprobá que tu archivo robots.txt cumpla con la validación de Google Webmaster Tools y también, hacele una revisión cada tanto para verificar que no haya sido modificado. Hay plugins que pueden cambiar instrucciones, y restringir el acceso a páginas o contenido de importancia para tu negocio.
Comandos principales
Los comandos son las instrucciones que podés escribir dentro del archivo robots.txt. Tenés que hacerlo siguiendo ciertas reglas de sintaxis.
User-agent:
Lo primero que debemos hacer, es indicar a cuál robots nos estamos dirigiendo. Para esto, tenemos el comando “ User-agent: “ (agente de usuario). Si la instrucción que vas a indicar, va destinada a un bot en particular, tenés que escribir su nombre después de los dos puntos, sino, colocá un asterisco para señalar que el comando es para todos.
Si querés conocer la mayoría de las arañas de los motores de búsqueda, ingresá al link https://www.robotstxt.org/db.html.
Luego, debemos indicarle a qué puede acceder y/o a qué no. Para esto contamos con los comandos: “Allow” y “ Disallow”.
Allow: Con este comando señalamos a qué página (URL), directorio o subdirectorio concretos permitimos ingresar, examinar e indexar.
Disallow: Opuesto al anterior, con esta orden señalamos a qué página (URL), directorio o subdirectorio concreto (incluido el contenido que dependa del mismo)no debe acceder ni indexar . Es decir que es lo que tiene restringido!
Ejemplo de sintaxis:
User-agent: Googlebot
Allow: /directorio-permitido/
User-agent: *Disallow: /directorio-prohibido/
Generalmente, los directorios para la administración de la web, los colocamos como disallow. Por ej. en WordPress.
User-agent: *
Disallow: /wp-admin/ Disallow: /wp-includes/
Dentro de un directorio que no queremos que se indexe, podemos señalar una excepción. Por ej.
User-agent: *Disallow: /directorio-prohibido/Allow: /directorio-prohibido/excepcion/
Crawl-delay:
Con este comando, podemos decirle a los robots, qué intervalo de tiempo debe pasar entre cada revisión que realizan a nuestro sitio. Por Ej.
User-agent: *Crawl-delay: 5400
El tiempo se expresa en segundos, en este caso 5400 segundos, que equivalen a 1 y 30 horas. Este parámetro, es útil, para sitios que varias veces al día, modifican su contenido.
Orden de comandos
Si escribís dos instrucciones que se superponen o contradicen, se le va a dar prioridad al que sea más específica. Por ejemplo:
1) En la siguiente regla, estamos indicando que TODOS los robots, tienen restringido el acceso al directorio con el nombre “directorio-prohibido”, incluido el bot Googlebot.
User-agent: *Disallow: /directorio-prohibido/
2) Y en la siguiente, le decimos al bot Googlebot, que puede acceder el directorio prohibido.
User-agent: GooglebotAllow: /directorio-prohibido/
Como la segunda regla es más específica que la primera, por dirigirse a un robot en particular, tiene mayor jerarquía y será a la que le dará prioridad el robot Googlebot cuando lea ambas normas.
Comodines:
/ Todo
Ej. Con el siguiente comando, nuestra web, no se mostrará en lo resultados de ningún buscador!
User-agent: *Disallow: /
/*? Toda URL que contenga un interrogante
/?s= Se usa específicamente, para desindexar las URLs de sitios hechos con WordPress, que utilizan para realizar búsquedas el signo “s”.
$ Símbolo del dólar. Se usa para indicar una cadena determinada.
Por Ej.
User-agent: *Disallow: /*.php$
En el ejemplo, el comodín “$” señala que todo directorio cuyo nombre termine con php, no se debe rastrear.
Otra forma de restringir el acceso
Podés evitar el archivo robots.txt y bloquear el acceso a tus páginas, a nivel de código, en cada página en particular, usando la meta etiqueta robots.
Ej. con el parámetro noindex, indicamos que no se indexe la página.
<meta name=”robots” content=”noindex”>
Ej. Con el parámetro nofollow señalamos que no se sigan los enlaces de la página.
<meta name=”robots” content=”nofollow“>