Robots.txt Google quiere establecer un estándar oficial para usar Robots.txt

Google quiere establecer un estándar oficial para usar Robots.txt

Google ha propuesto un estándar oficial de Internet para las reglas incluidas en los archivos robots.txt.

Esas reglas, descritas en el Protocolo de Exclusión de Robots (REP), han sido un estándar no oficial durante los últimos 25 años.

Si bien los motores de búsqueda han adoptado el REP, aún no es oficial, lo que significa que está abierto a la interpretación de los desarrolladores. Además, nunca se ha actualizado para cubrir los casos de uso de hoy.

Como dice Google, esto crea un desafío para los propietarios de sitios web debido a que el estándar de facto, ambiguamente escrito, dificultó la escritura correcta de las reglas.

Para eliminar este desafío, Google ha documentado cómo se usa el REP en la web moderna y lo ha enviado al Grupo de trabajo de ingeniería de Internet (IETF) para su revisión.

Google explica lo que está incluido en el borrador:

“El borrador de REP propuesto refleja más de 20 años de experiencia en el mundo real de confiar en las reglas de robots.txt, utilizadas tanto por Googlebot y otros rastreadores principales, como por la mitad de los mil millones de sitios web que dependen del REP. Estos controles detallados le dan al editor el poder de decidir qué es lo que desean que se rastree en su sitio y se muestre a los usuarios interesados ​​”.

El borrador no modifica ninguna de las reglas establecidas en 1994, solo se acaba de actualizar para la web moderna.

Algunas de las reglas actualizadas incluyen:

  • Cualquier protocolo de transferencia basado en URI puede utilizar robots.txt. Ya no se limita a HTTP. También se puede utilizar para FTP o CoAP.
    .
  • Los desarrolladores deben analizar al menos los primeros 500 kibibytes de un archivo robots.txt.
    .
  • Un nuevo tiempo máximo de almacenamiento en caché de 24 horas o un valor de directiva de caché si está disponible, lo que brinda a los propietarios de sitios web la flexibilidad de actualizar su archivo robots.txt cuando lo deseen.
    .
  • Cuando un archivo robots.txt se vuelve inaccesible debido a fallas del servidor, las páginas desconocidas no permitidas no se rastrean durante un período de tiempo razonablemente largo.

Google está totalmente abierto a comentarios sobre el borrador propuesto y dice que está comprometido a hacerlo bien.

Google quiere establecer un estándar oficial para usar robots.txt

Más Artículos Similares:

Share:

Compartir en facebook
Facebook
Compartir en twitter
Twitter
Compartir en pinterest
Pinterest
Compartir en linkedin
LinkedIn
Editorial

Publicaciones Relacionadas

Tendencias de Fotografía 2020

Tendencias de Fotografía 2020

Tendencias de Fotografía 2020 El mundo está cambiando a una velocidad exponencial y la fotografía lo está alcanzando rápidamente. Nuevos valores, comportamientos, memes y eslóganes

Cómo crear contenido atractivo en redes sociales

Cómo crear contenido atractivo en redes sociales – 12 consejos para generar resultados

Cómo crear contenido atractivo en redes sociales Con 3.800 millones de usuarios, las plataformas de redes sociales te ponen frente a una gran audiencia. ¿Pero a

Velocidad de carga de los sitio web

Velocidad de carga de los sitio web, que es y cómo reducirla

Velocidad de carga de los sitio web Todos preferimos tener un sitio web rápido que un sitio web lento. Pero el tiempo de carga no

Instagram reels y tienda

Instagram reels y tienda próximamente en la barra de navegación inferior

Instagram reels y tienda Después de lanzar recientemente una pestaña de Reels en la barra de navegación principal de la aplicación para usuarios en la