Le budget crawl et son impact sur le SEO

Le budget crawl est une notion qui apparait aux yeux du SEO comme une nouveauté. Pourtant, il s’agit de la logique respectée par le rapport du temps de crawl et le nombre de pages à crawler sur un site web. D’où, un site rapide et sans problème au niveau du serveur sera exploré efficacement et rapidement par les robots d’indexation, un autre paramètre vient s’ajouter à ces deux premiers, il s’agit du nombre d’url à explorer.

 

Quelques précisions avant de continuer

Avant d’aller plus loin, il est important de clarifier certains points. Déjà, le budget crawl concerne surtout les gros sites web. Selon Google, si les nouvelles pages de votre site sont crawlées, 24h après sa publication, vous n’avez pas à vous soucier du budget crawl. De même que si votre site ne dispose que quelques centaines ou milliers d’url, la notion de budget crawl ne devrait pas être prise comme un problème pour vous. Les sites qui sont concernés par cette notion sont ceux dont le nombre d’url indexé dépasse les 10.000 URL et ceux qui génèrent aussi des URL en paramètres. On peut déjà donc dire que les sites statiques, qui ne sont pas crawlés souvent, n’ont pas de raison de s’inquiéter sur le nombre de crawl.

 

Le budget crawl d’un site web

Les robots d’indexation ou crawler sont les robots qui parcourent incessamment la toile. Ils ont pour mission de détecter les nouvelles publications, de mettre à jour l’index des moteurs de recherche et surtout ne pas nuire à l’expérience utilisateur. Chaque site web est crawlé selon certains paramètres. Dans ce sens, GoogleBot respecte ce que l’on appelle la « limite de la vitesse d’exploration ». Cette limite est calculée en fonction de deux paramètres : le nombre de connexions simultanées parallèles demandées par GoogleBot et l’attente entre deux explorations.

 

Les facteurs qui influencent la vitesse d’exploration

referencement avec primoIl existe deux facteurs qui influencent la vitesse d’exploration : l’état d’exploration et les paramètres du Search Console.

  • Le premier a un rapport avec le temps de réponse du serveur. Si le site répond rapidement, la limite augmente et les crawleurs peuvent utiliser plus de connexions. Si le site met trop de temps à répondre ou si des erreurs au niveau du serveur ont été enregistrées, les robots d’indexation réduisent leurs explorations.
  • Google met à disposition des webmasters l’outils Google Search Console afin de contrôler certains partis SEO de leur site. C’est le cas de la vitesse d’exploration. Le propriétaire du site peut modifier la valeur de cette limite selon ses besoins, mais il faut noter que la définition d’une limite élevée n’occasionne pas forcément l’augmentation du nombre de crawl.

 

La nécessité de crawler

Même si c’est le rôle des robots d’indexation est de parcourir le web, il arrive que certains sites ne soient pas crawlés que d’autres. C’est le cas des sites statiques. Ces sites n’ayant pas des nouvelles pages à proposer aux visiteurs ne sont pas crawlés souvent. Dans le cas contraire, les sites dits populaires seront plus souvent crawlés, car ils publient plus souvent des nouveaux contenus.

 

Les changements d’adresse web d’un site web entrainent un besoin en crawl plus important afin que les URL dans l’index soient mises à jour.

 

Ce qui influence le budget crawl

googleMême si la vitesse d’exploration n’est pas un problème SEO, il est important de jeter un œil sur les facteurs qui peuvent l’affecter. En effet, si l’on est attentif au référencement naturel de votre site internet, on s’aperçoit rapidement que faire du SEO ne relève pas uniquement du respect des grandes lignes imposées par Google, il s’agit de travailler méticuleusement chaque facette des consignes de référencement. Dans ce cas, il devient important de maîtriser son budget crawl. Alors, qu’est-ce qu’il faut faire pour avoir un budget crawl optimisé ?

  • Éliminer la navigation à facette et les identifiants de sessions.
  • Détecter et supprimer les contenus dupliqués sur le site.
  • Traiter les erreurs 404.
  • Traiter les pages piratées ou malveillantes.
  • Les contenus spam et de mauvaises qualités sont à supprimés.
  • L’utilisation d’espace infini et de proxys est à proscrire.

 

Cela signifie tout simplement, qu’il faut optimiser le budget crawl en proposant des URLS ayant du contenu utile et intéressant. En procédant ainsi, non seulement, vous allez avoir un site qui ranke bien, mais votre site gagnera aussi la confiance de Google.

 

Lecture conseillée : Nombre de page et son influence sur le référencement web

Suivez-nous sur

Twitter