Archivo Robots.txt, ¿Qué es? y sus Últimas Novedades

robots.txt google actualizacion

Semtido Digital

10 mayo, 2021


Hoy vamos a hablaros del archivo robots.txt, ya que Google ha decidido ampliar los datos que podemos incluir en él.

¿Qué es robots.txt?

También llamado Protocolo de Exclusión de robots, REP, o robots.txt, su nombre más utilizado. Un protocolo que en sus primeros 25 años de vida no estaba estandarizado, y esto tenía consecuencias frustrantes para los webmaster.

Google se ha encargado de estandarizarlo, otra herramienta propia que el gigante de la tecnológica, la ha pasado a open source, de código abierto (enlace a https://developers.google.com/search/blog/2019/07/repp-oss).

Si tienes una página web propia, con servidor y dominio propio, podrás configurar el archivo robots.txt. En cambio si tienes una web, alojada en un servidor externo como Wix o Blogger, es probable que no lo tengas ni que crear, ni mucho menos poder configurarlo a tu gusto.

El archivo robots.txt, es un archivo de texto, como su propia extensión (txt) indica. Debe instalarse en el directorio raíz de la web. Ejemplo, si tu web es www.ejemplo.es, este archivo debe estar en www.ejemplo.es/robots.txt.

El archivo consta de una serie de reglas y cada una, permite bloquear o permite el acceso de un robot rastreador o web (por normal general robots de motores de búsqueda, como el de google), a una ruta concreta de tu sitio web.

Digamos que podemos dar instrucciones a estos robots, sobre como queremos que rastreen nuestra web, a través de este archivo con las instrucciones de “permitir” o “no permitir”.

¿Cómo funciona Robots?

Los robots que circulan por internet y se encargan de rastrear e indexar las web, pueden rastrear todos los sitios por defecto. Pero nosotros podemos configurar el archivo robots.txt, para que actúe como si fuera una llave de paso y dar acceso o denegárselo a las rutas que nos interese.

Además, también incluye reglas de página, subdirectorio o toda la web, sobre cómo deben tratar los motores de búsqueda los enlaces:

  • “no follow”= no seguir  
  • “follow”= seguir

Vamos a explicarlo con el rastreador de Google. El “user agent” llamado “robot de Google” no puede rastrear el directorio:

https://ejemplo.es/otrodirectorio/ ni ninguno de sus subdirectorios.

El resto de los user agents, pueden rastrear todo el sitio web. Se podría haber omitido esta regla y el resultado habría sido el mismo. Ya que como hemos dicho al principio, lo rastrean todo de forma predeterminada.

Aconsejamos leer la sintaxis completa de estos archivos, porque tienen algunas particularidades. Puedes acceder a ellos a través de la ruta predefinida, como explicamos al principio del post.

¿Cómo creo el archivo robots.txt?

Al ser un archivo de texto, puedes crearlo con un editor de texto. El editor debe soportar la creación de archivos de texto UTF-8 estándar.

Al crearlo todo su nombre tiene que ir en minúsculas, sino los robots que distinguen entre mayúsculas y minúsculas no lo encontrarán. Tiene que denominarse robots.txt (no Robots.txt o robots.TXT, por ejemplo)

No recomendamos utilizar para su creación procesadores de texto, ya que al guardar el archivo, lo hacen con formato propio, y pueden añadir caracteres inesperados, como comillas, barras, curvas, etc, que pueden complicar el trabajo de los rastreadores.

Con la herramienta de comprobación de archivos robot.txt , podrás crear o editar archivos robots.txt, comprobar su sintaxis y monitorear su comportamiento durante el rastreo.

Lo creas en el directorio raíz de tu sitio web, si no sabes como acceder a él, ponte en contacto con tu proveedor de servicios de alojamiento web.

Síntaxis del Archivo Robots

Este archivo de texto, debe estar codificado en UTF-8, que incluye el estándar de caracteres ASCII, que sirve para la representación de estos, en cualquier dispositivo electrónico. No sería válido utilizar otro conjunto de caracteres.

archivo robots.txtEn la imagen anterior, podemos apreciar una sintaxis básica del archivo robots.txt de una web con un sitemap incluido. En el ejemplo, sólo tenemos un grupo creado, pero puede haber varios dentro de robots.txt.

En el ejemplo:

  • Al poner el asterisco en la primera línea, estamos permitiendo la entrada de todos los rastreadores web, de los motores de búsqueda.
  • No se permite visitar la ruta /wp-admin/. Por la instrucción Disallow.
  • Se permite a todos los agentes (user-agent, motores de búsqueda) ir a la ruta /wp-admin/admin-ajax.php. Gracias a la instrucción allow.
  • La última línea se le indica la ruta del sitemap, donde se le indica toda la estructura web.

Si tuviéramos algún salto de línea dentro del archivo, estaríamos hablando de otro grupo o directiva diferente.

Google agrega nuevos Datos a Robots.txt

En abril de este 2021, google ha anunciado que permite agregar más detalles al archivo robots.txt. Podemos comprobar estos nuevos detalles de robots.txt aquí.

Son los siguientes:

  • Detalles explícitos de archivos para IDN.
  • Direcciones IP.
  • Nombres de host con números de puerto.

más de talles robots.txt

ejemplo robots.txt

Hasta aquí nuestro primer post del archivo robots, para explicar la importancia que tiene y como podemos establecerle a los motores de búsqueda, unas direcrices de rastreo de nuestro ditio web o directorio.

Espero que os haya gustado, y nos podáis escribir  sobre este tema o otros de posicionamiento web a nuestra agencia seo en Sevilla, a través de info@semtidodigital.es. Mucha gracias.

 

Autores José Antonio y Pablo López de Semtido Digital.


 

Quizás también te interese leer…

Nuevas métricas de Google – Core Web Vitals

Nuevas métricas de Google – Core Web Vitals

Las Core Web Vitals serán factores de Posicionamiento web en Google a partir de mayo de 2021 Desde mayo de este año y sin dejarnos respirar por la de cambios y actualizaciones que está teniendo Google en todas sus herramientas, analytics, search console, ads, y como...

Cómo Optimizar el Rendimiento de tu Web

Cómo Optimizar el Rendimiento de tu Web

Web Perfomance Optimization - WPO Muy buenas, en este nuevo post vamos a hablaros de la importancia que tiene poder optimizar los tiempos de carga de una web, para que Google no te penalice y tenga en cuenta a tu página como resultado relevante en las primeras...

Errores SEO Más Comunes en 2020

Errores SEO Más Comunes en 2020

  El Mundo cambiante del SEO Hola de nuevo, para seguir con la que nos está cayendo de calor y de rebrotes, más las medidas extraordinarias que está tomando el gobierno para combatirlos, los que nos dedicamos al posicionamiento web, tenemos a nuestro querido...

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Suscríbete

¡Disfruta de nuestra newsletter!

Acepto la

13 + 15 =