Robots.txt Google quiere establecer un estándar oficial para usar Robots.txt

Google quiere establecer un estándar oficial para usar Robots.txt

Google ha propuesto un estándar oficial de Internet para las reglas incluidas en los archivos robots.txt.

Esas reglas, descritas en el Protocolo de Exclusión de Robots (REP), han sido un estándar no oficial durante los últimos 25 años.

Si bien los motores de búsqueda han adoptado el REP, aún no es oficial, lo que significa que está abierto a la interpretación de los desarrolladores. Además, nunca se ha actualizado para cubrir los casos de uso de hoy.

Como dice Google, esto crea un desafío para los propietarios de sitios web debido a que el estándar de facto, ambiguamente escrito, dificultó la escritura correcta de las reglas.

Para eliminar este desafío, Google ha documentado cómo se usa el REP en la web moderna y lo ha enviado al Grupo de trabajo de ingeniería de Internet (IETF) para su revisión.

Google explica lo que está incluido en el borrador:

“El borrador de REP propuesto refleja más de 20 años de experiencia en el mundo real de confiar en las reglas de robots.txt, utilizadas tanto por Googlebot y otros rastreadores principales, como por la mitad de los mil millones de sitios web que dependen del REP. Estos controles detallados le dan al editor el poder de decidir qué es lo que desean que se rastree en su sitio y se muestre a los usuarios interesados ​​”.

El borrador no modifica ninguna de las reglas establecidas en 1994, solo se acaba de actualizar para la web moderna.

Algunas de las reglas actualizadas incluyen:

  • Cualquier protocolo de transferencia basado en URI puede utilizar robots.txt. Ya no se limita a HTTP. También se puede utilizar para FTP o CoAP.
    .
  • Los desarrolladores deben analizar al menos los primeros 500 kibibytes de un archivo robots.txt.
    .
  • Un nuevo tiempo máximo de almacenamiento en caché de 24 horas o un valor de directiva de caché si está disponible, lo que brinda a los propietarios de sitios web la flexibilidad de actualizar su archivo robots.txt cuando lo deseen.
    .
  • Cuando un archivo robots.txt se vuelve inaccesible debido a fallas del servidor, las páginas desconocidas no permitidas no se rastrean durante un período de tiempo razonablemente largo.

Google está totalmente abierto a comentarios sobre el borrador propuesto y dice que está comprometido a hacerlo bien.

Google quiere establecer un estándar oficial para usar robots.txt

Más Artículos Similares:

Share:

Facebook
Twitter
Pinterest
LinkedIn
Editorial

Publicaciones Relacionadas

Tendencias de Fotografía 2020

Tendencias de Fotografía 2020

Tendencias de Fotografía 2020 El mundo está cambiando a una velocidad exponencial y la fotografía lo está alcanzando rápidamente. Nuevos valores, comportamientos, memes y eslóganes