Archivo Robots.txt, ¿Qué es? y sus Últimas Novedades

robots.txt google actualizacion

Semtido Digital

10 mayo, 2021

Rate this post

Hoy vamos a hablaros del archivo robots.txt, ya que Google ha decidido ampliar los datos que podemos incluir en él.

Tabla de contenidos

¿Qué es robots.txt?

También llamado Protocolo de Exclusión de robots, REP, o robots.txt, su nombre más utilizado. Un protocolo que en sus primeros 25 años de vida no estaba estandarizado, y esto tenía consecuencias frustrantes para los webmaster.

Google se ha encargado de estandarizarlo, otra herramienta propia que el gigante de la tecnológica, la ha pasado a open source, de código abierto (enlace a https://developers.google.com/search/blog/2019/07/repp-oss).

Si tienes una página web propia, con servidor y dominio propio, podrás configurar el archivo robots.txt. En cambio si tienes una web, alojada en un servidor externo como Wix o Blogger, es probable que no lo tengas ni que crear, ni mucho menos poder configurarlo a tu gusto.

El archivo robots.txt, es un archivo de texto, como su propia extensión (txt) indica. Debe instalarse en el directorio raíz de la web. Ejemplo, si tu web es www.ejemplo.es, este archivo debe estar en www.ejemplo.es/robots.txt.

El archivo consta de una serie de reglas y cada una, permite bloquear o permite el acceso de un robot rastreador o web (por normal general robots de motores de búsqueda, como el de google), a una ruta concreta de tu sitio web.

Digamos que podemos dar instrucciones a estos robots, sobre como queremos que rastreen nuestra web, a través de este archivo con las instrucciones de “permitir” o “no permitir”.

¿Cómo funciona Robots?

Los robots que circulan por internet y se encargan de rastrear e indexar las web, pueden rastrear todos los sitios por defecto. Pero nosotros podemos configurar el archivo robots.txt, para que actúe como si fuera una llave de paso y dar acceso o denegárselo a las rutas que nos interese.

Además, también incluye reglas de página, subdirectorio o toda la web, sobre cómo deben tratar los motores de búsqueda los enlaces:

  • “no follow”= no seguir  
  • “follow”= seguir

Vamos a explicarlo con el rastreador de Google. El “user agent” llamado “robot de Google” no puede rastrear el directorio:

https://ejemplo.es/otrodirectorio/ ni ninguno de sus subdirectorios.

El resto de los user agents, pueden rastrear todo el sitio web. Se podría haber omitido esta regla y el resultado habría sido el mismo. Ya que como hemos dicho al principio, lo rastrean todo de forma predeterminada.

Aconsejamos leer la sintaxis completa de estos archivos, porque tienen algunas particularidades. Puedes acceder a ellos a través de la ruta predefinida, como explicamos al principio del post.

¿Cómo creo el archivo robots.txt?

Al ser un archivo de texto, puedes crearlo con un editor de texto. El editor debe soportar la creación de archivos de texto UTF-8 estándar.

Al crearlo todo su nombre tiene que ir en minúsculas, sino los robots que distinguen entre mayúsculas y minúsculas no lo encontrarán. Tiene que denominarse robots.txt (no Robots.txt o robots.TXT, por ejemplo)

No recomendamos utilizar para su creación procesadores de texto, ya que al guardar el archivo, lo hacen con formato propio, y pueden añadir caracteres inesperados, como comillas, barras, curvas, etc, que pueden complicar el trabajo de los rastreadores.

Con la herramienta de comprobación de archivos robot.txt , podrás crear o editar archivos robots.txt, comprobar su sintaxis y monitorear su comportamiento durante el rastreo.

Lo creas en el directorio raíz de tu sitio web, si no sabes como acceder a él, ponte en contacto con tu proveedor de servicios de alojamiento web.

Síntaxis del Archivo Robots

Este archivo de texto, debe estar codificado en UTF-8, que incluye el estándar de caracteres ASCII, que sirve para la representación de estos, en cualquier dispositivo electrónico. No sería válido utilizar otro conjunto de caracteres.

archivo robots.txtEn la imagen anterior, podemos apreciar una sintaxis básica del archivo robots.txt de una web con un sitemap incluido. En el ejemplo, sólo tenemos un grupo creado, pero puede haber varios dentro de robots.txt.

En el ejemplo:

  • Al poner el asterisco en la primera línea, estamos permitiendo la entrada de todos los rastreadores web, de los motores de búsqueda.
  • No se permite visitar la ruta /wp-admin/. Por la instrucción Disallow.
  • Se permite a todos los agentes (user-agent, motores de búsqueda) ir a la ruta /wp-admin/admin-ajax.php. Gracias a la instrucción allow.
  • La última línea se le indica la ruta del sitemap, donde se le indica toda la estructura web.

Si tuviéramos algún salto de línea dentro del archivo, estaríamos hablando de otro grupo o directiva diferente.

Google agrega nuevos Datos a Robots.txt

En abril de este 2021, google ha anunciado que permite agregar más detalles al archivo robots.txt. Podemos comprobar estos nuevos detalles de robots.txt aquí.

Son los siguientes:

  • Detalles explícitos de archivos para IDN.
  • Direcciones IP.
  • Nombres de host con números de puerto.

más de talles robots.txt

ejemplo robots.txt

Hasta aquí nuestro primer post del archivo robots, para explicar la importancia que tiene y como podemos establecerle a los motores de búsqueda, unas direcrices de rastreo de nuestro ditio web o directorio.

Espero que os haya gustado, y nos podáis escribir  sobre este tema o otros de posicionamiento web a nuestra agencia seo en Sevilla, a través de info@semtidodigital.es. Mucha gracias.

 

Autores José Antonio y Pablo López de Semtido Digital.


 

Quizás también te interese leer…

Posicionamiento SEO en Amazon

Posicionamiento SEO en Amazon

En el post de hoy vamos a hablaros como agencia especialista en SEO, del posicionamiento orgánico (es decir, no de pago) de los productos en el Marketplace de amazon. Amazon como tod@s sabemos, se ha convertido en el mayor comercio electrónico a nivel mundial, un...

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Suscríbete

¡Disfruta de nuestra newsletter!

Acepto la

15 + 4 =