Budget crawl ?

En tant que référenceur, on souhaite que toutes nos pages utiles soient connues des moteurs de recherches et que ces derniers y accèdent facilement, les trouvent intéressantes et reviennent rapidemment découvrir les modifications apportées depuis leurs précédentes visites.

site web : architecture SEO
Représentation visuelle des liens entre les pages d’un site

On voit alors souvent le terme de budget crawl. L’idée est de faciliter la découverte et le parcours des contenus. Le terme budget crawl est en fait peu approprié (merci à Michael Martinez pour m’avoir fait tilté sur ce point) . Il vaut mieux parler d’optimisation du crawl ou de gestion du crawl.

Si on se place du côté du moteur : budget crawl

Ce que cherche le moteur de recherche c’est d’utiliser au mieux ses ressources pour découvrir de nouveaux contenus, actualiser ceux qui sont connus et choisir lesquels méritent d’être indexés.

Pour un moteur, il faut donc être rapide et efficace. Crawler demande des ressources et le web est particulièrement vaste. D’autant plus qu’il faudrait idéalement revenir voir toutes les pages déjà découvertes.

C’est pour cela que Google pousse afin :

  • d’avoir des sites rapides (c’est bien pour l’utilisateur mais c’est bien pour découvrir plus rapidement du contenu) ;
  • d’avoir des sitemaps (c’est même un super raccourci) ;
  • d’avoir des sites bien construits avec un seul et même contenu accessible par une seule URL (afin de ne pas perdre de temps).

Si on se place du côté du site : facilitation du crawl

Du côté du site, on ne peut pas décider quand passe Google ni quel page il choisit de parcourir par contre on peut le guider et l’inciter à voir certains contenus.

Dans leurs boites à outils, les SEO et les développeurs web ont à leur disposition :

  • un cerveau pour proposer un site à jour et organisé logiquement ;
  • des choix d’architecture (architecture plate, architecture en silo…) ;
  • la possibilité de faire des liens entre les pages du site (en plus ou à la place de la navigation commune à toutes les pages du site) ;
  • la possibilité de rendre le site plus rapide ;
  • la possibilité de limiter le parcours de robots indésirables (qui prennent des ressources serveur pour rien) ;
  • des moyens de bloquer des parties de site (dossiers / urls) ;
  • le moyen d’afficher les en-têtes adéquat (404, 301, 302, 403…) et de rediriger des pages webs (redirections 301 typiquement) afin de faire comprendre aux robots ce qui se passe avec certaines pages (« ok, page valide », « erreur temporaire, reviens plus tard », « page à rediriger définitivement »…) ;
  • les fichiers sitemap.xml qui jouent le rôle de sommaire pour les robots…

Le webmaster attentif doit donc contrôler qui vient sur son serveur, quand et comment. Donc pour utiliser les bons termes : Le budget crawl, c’est pour les moteurs et la facilitation du crawl c’est pour les référenceurs.

Photo : Noah Sussman

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *