Hoy vamos a hablaros del archivo robots.txt, ya que Google ha decidido ampliar los datos que podemos incluir en él.
Tabla de contenidos
¿Qué es robots.txt?
También llamado Protocolo de Exclusión de robots, REP, o robots.txt, su nombre más utilizado. Un protocolo que en sus primeros 25 años de vida no estaba estandarizado, y esto tenía consecuencias frustrantes para los webmaster.
Google se ha encargado de estandarizarlo, otra herramienta propia que el gigante de la tecnológica, la ha pasado a open source, de código abierto (enlace a https://developers.google.com/search/blog/2019/07/repp-oss).
Si tienes una página web propia, con servidor y dominio propio, podrás configurar el archivo robots.txt. En cambio si tienes una web, alojada en un servidor externo como Wix o Blogger, es probable que no lo tengas ni que crear, ni mucho menos poder configurarlo a tu gusto.
El archivo robots.txt, es un archivo de texto, como su propia extensión (txt) indica. Debe instalarse en el directorio raíz de la web. Ejemplo, si tu web es www.ejemplo.es, este archivo debe estar en www.ejemplo.es/robots.txt.
El archivo consta de una serie de reglas y cada una, permite bloquear o permite el acceso de un robot rastreador o web (por normal general robots de motores de búsqueda, como el de google), a una ruta concreta de tu sitio web.
Digamos que podemos dar instrucciones a estos robots, sobre como queremos que rastreen nuestra web, a través de este archivo con las instrucciones de “permitir” o “no permitir”.
¿Cómo funciona Robots?
Los robots que circulan por internet y se encargan de rastrear e indexar las web, pueden rastrear todos los sitios por defecto. Pero nosotros podemos configurar el archivo robots.txt, para que actúe como si fuera una llave de paso y dar acceso o denegárselo a las rutas que nos interese.
Además, también incluye reglas de página, subdirectorio o toda la web, sobre cómo deben tratar los motores de búsqueda los enlaces:
- “no follow”= no seguir
- “follow”= seguir
Vamos a explicarlo con el rastreador de Google. El “user agent” llamado “robot de Google” no puede rastrear el directorio:
https://ejemplo.es/otrodirectorio/ ni ninguno de sus subdirectorios.
El resto de los user agents, pueden rastrear todo el sitio web. Se podría haber omitido esta regla y el resultado habría sido el mismo. Ya que como hemos dicho al principio, lo rastrean todo de forma predeterminada.
Aconsejamos leer la sintaxis completa de estos archivos, porque tienen algunas particularidades. Puedes acceder a ellos a través de la ruta predefinida, como explicamos al principio del post.
¿Cómo creo el archivo robots.txt?
Al ser un archivo de texto, puedes crearlo con un editor de texto. El editor debe soportar la creación de archivos de texto UTF-8 estándar.
Al crearlo todo su nombre tiene que ir en minúsculas, sino los robots que distinguen entre mayúsculas y minúsculas no lo encontrarán. Tiene que denominarse robots.txt (no Robots.txt o robots.TXT, por ejemplo)
No recomendamos utilizar para su creación procesadores de texto, ya que al guardar el archivo, lo hacen con formato propio, y pueden añadir caracteres inesperados, como comillas, barras, curvas, etc, que pueden complicar el trabajo de los rastreadores.
Con la herramienta de comprobación de archivos robot.txt , podrás crear o editar archivos robots.txt, comprobar su sintaxis y monitorear su comportamiento durante el rastreo.
Lo creas en el directorio raíz de tu sitio web, si no sabes como acceder a él, ponte en contacto con tu proveedor de servicios de alojamiento web.
Síntaxis del Archivo Robots
Este archivo de texto, debe estar codificado en UTF-8, que incluye el estándar de caracteres ASCII, que sirve para la representación de estos, en cualquier dispositivo electrónico. No sería válido utilizar otro conjunto de caracteres.
En la imagen anterior, podemos apreciar una sintaxis básica del archivo robots.txt de una web con un sitemap incluido. En el ejemplo, sólo tenemos un grupo creado, pero puede haber varios dentro de robots.txt.
En el ejemplo:
- Al poner el asterisco en la primera línea, estamos permitiendo la entrada de todos los rastreadores web, de los motores de búsqueda.
- No se permite visitar la ruta /wp-admin/. Por la instrucción Disallow.
- Se permite a todos los agentes (user-agent, motores de búsqueda) ir a la ruta /wp-admin/admin-ajax.php. Gracias a la instrucción allow.
- La última línea se le indica la ruta del sitemap, donde se le indica toda la estructura web.
Si tuviéramos algún salto de línea dentro del archivo, estaríamos hablando de otro grupo o directiva diferente.
Google agrega nuevos Datos a Robots.txt
En abril de este 2021, google ha anunciado que permite agregar más detalles al archivo robots.txt. Podemos comprobar estos nuevos detalles de robots.txt aquí.
Son los siguientes:
- Detalles explícitos de archivos para IDN.
- Direcciones IP.
- Nombres de host con números de puerto.
Hasta aquí nuestro primer post del archivo robots, para explicar la importancia que tiene y como podemos establecerle a los motores de búsqueda, unas direcrices de rastreo de nuestro ditio web o directorio.
Espero que os haya gustado, y nos podáis escribir sobre este tema o otros de posicionamiento web a nuestra agencia seo en Sevilla, a través de info@semtidodigital.es. Mucha gracias.
Autores José Antonio y Pablo López de Semtido Digital.
0 comentarios