Moteur de recherche Icône de signet simple

Un robot de recherche est un programme automatisé qui scrute le contenu de l'internet en suivant les liens d'une page à l'autre. Également appelé "robot de recherche", "araignée" ou "crawler", il indexe méthodiquement les pages afin que les moteurs de recherche puissent les retrouver lorsque les utilisateurs les recherchent.

Dernière mise à jour 13 novembre 2023
En-tête de bas de page en dégradé de violet à blanc

Vous êtes-vous déjà demandé comment des moteurs de recherche comme Google pouvaient répondre à vos requêtes en vous proposant un contenu et des pages pertinents ? Les moteurs de recherche sont aidés par des robots de recherche, également appelés "search bots", "spiders" ou "web crawlers".

Apprenez comment fonctionnent les robots de recherche pour améliorer vos efforts d'optimisation des moteurs de recherche (SEO) !

Qu'est-ce qu'un robot de recherche ?

A moteur de recherche est un programme qui parcourt et indexe les pages de l'internet. Sa mission est d'indexer les pages afin que les moteurs de recherche puissent retrouver les informations et les pages pertinentes lorsqu'un utilisateur les recherche. Un moteur de recherche est également appelé "robot de recherche", "araignée", "web crawler" ou "search crawler".

Pourquoi les robots de recherche sont importants pour le référencement

Les robots de recherche sont essentiels à vos efforts de référencement. Ces robots doivent être en mesure de découvrir et d'explorer votre site avant que vos pages n'apparaissent dans les pages de résultats des moteurs de recherche (SERP).

Cela dit, assurez-vous que vous n'empêchez pas les robots d'exploration de parcourir les pages que vous souhaitez classer.

Comment fonctionne un robot d'indexation ?

Les robots de recherche sont des explorateurs du World Wide Web.

Ils commencent par une carte des URL connus à visiter. Ces spiders explorent d'abord ces pages. Ensuite, ils se rendent sur d'autres pages auxquelles leur liste initiale d'URL renvoie.

Points de vue d'experts Logo Google

"Nous utilisons un grand nombre d'ordinateurs pour parcourir des milliards de pages sur le web. Le programme qui effectue la recherche s'appelle Googlebot (également appelé robot d'exploration, robot, bot ou araignée). Googlebot utilise un processus algorithmique pour déterminer les sites à explorer, leur fréquence et le nombre de pages à récupérer sur chacun d'entre eux.

Centre de recherche Google Source d'information

Le World Wide Web étant une vaste collection de pages, les robots de recherche sont sélectifs quant au contenu qu'ils privilégient. Ces robots suivent des règles concernant les pages à analyser et la fréquence à laquelle ils doivent explorer à nouveau les pages pour y apporter des mises à jour.

Les robots de recherche recueillent des informations sur les pages qu'ils explorent - comme des voyageurs qui prennent des notes sur les nouveaux endroits qu'ils ont visités. Ils recueillent des informations telles que le texte de la page, les images et leur texte alt, ainsi que les balises méta. Les algorithmes des moteurs de recherche traitent et stockent ensuite ces informations afin de pouvoir les retrouver lorsqu'un utilisateur les recherche !

Si vous avez un nouveau site web et qu'aucune autre page ne renvoie actuellement à celui-ci, vous pouvez soumettre votre URL à Google Search Console.

FAQ sur les moteurs de recherche

Maintenant que vous savez pourquoi les robots de recherche sont importants pour le référencement et comment fonctionnent les robots d'indexation, examinons quelques questions fréquemment posées sur les robots d'indexation :

Quels sont les exemples de robots d'indexation ?

La plupart des moteurs de recherche ont leurs propres robots. Les géants des moteurs de recherche comme Google ont même de nombreux robots qui se concentrent sur des domaines particuliers. Voici quelques exemples de robots d'indexation :

  • Google Desktop: Un crawler qui simule un utilisateur d'ordinateur de bureau
  • Smartphone Google: Un Googlebot qui simule un utilisateur de téléphone portable
  • Bingbot: Le robot d'exploration du web de Bing, lancé en 2010.
  • Araignée Baidu: Le robot d'exploration du moteur de recherche Baidu
  • DuckDuckBot: Le robot de recherche de DuckDuckGo
  • Yandex Bot: Le moteur de recherche du moteur de recherche Yandex

Faut-il toujours permettre aux robots d'indexation d'accéder à votre site web ?

Les propriétaires de sites web comme vous souhaitent que leurs pages soient indexées et apparaissent dans les résultats de recherche. Toutefois, l'accès permanent des robots de recherche à votre site peut accaparer les ressources du serveur et faire grimper les coûts de la bande passante.

En outre, vous pouvez avoir des pages que vous ne voulez pas que les moteurs de recherche découvrent et servent aux utilisateurs, comme par exemple

  • Page d'atterrissage d'une campagne: Il se peut que vous ayez des pages d'atterrissage pour le paiement au clic (PPC) et que vous souhaitiez que seuls les utilisateurs ciblés accèdent à la page.
  • Page derésultats de recherche interne: Votre site web dispose-t-il d'une fonction de recherche ? Si c'est le cas, il est possible qu'il dispose d'une page de résultats de recherche que vous ne souhaitez pas voir apparaître dans les SERP de Google, car elle ne contient peut-être pas de contenu utile pour les internautes qui effectuent des recherches sur Google. Vous souhaiteriez qu'ils atterrissent sur vos autres pages utiles.
  • Page de remerciement ou de bienvenue
  • Page de connexion de l'administrateur
Conseil de pro

Vous pouvez ajouter une balise "noindex" aux pages que vous ne souhaitez pas voir apparaître dans les SERP. Une balise "disallow" sur votre page ou dans votre fichier robots.txt indique également aux robots d'indexation de ne pas l'explorer.

Quel est le budget du crawl ?

Le budget de crawl est le temps et les ressources que les robots de recherche consacreront à l'exploration d'un site web. Il comprend :

  • Le nombre de pages à explorer
  • Fréquence d'exploration des robots
  • Ressources serveur acceptables

Le budget de crawl est important car vous ne voulez pas que les robots de recherche et les visiteurs surchargent votre site. Si Google ralentit votre serveur, vous pouvez ajuster votre limite de vitesse d'exploration dans les paramètres de vitesse d'exploration de Google Search Console.

Optimisez les moteurs de recherche pour renforcer votre stratégie de référencement

Les robots de recherche parcourent votre site pour que vos pages soient indexées et accessibles. Comprendre ce qu'ils sont et comment ils fonctionnent vous permet d'optimiser votre site pour le classer dans les SERP et aider vos clients potentiels à trouver votre entreprise !

Vous souhaitez en savoir plus sur d'autres termes et expressions liés au référencement ? Consultez notre glossaire SEO!

Ne ratez pas le test le plus important de votre site web

Obtenez gratuitement une carte de score SEO de votre site web en moins de 30 secondes.