Laurent m’a invité à déjeuner hier pour discuter du glossaire de #audreytips et j’en ai profité pour lui demandé des explications sur les bots de Google.

Lors de notre discussion, il a mentionné à de nombreuses reprises le terme “crawler” et j’ai décidé de le mettre en avant dans cet article.

Notre expert en Marketing Digital m’a aussi dit que :

Un crawler est un logiciel utilisé par un moteur de recherche pour capter des ressources d’une page Web, image, vidéo… Il existe aussi des outils de crawl d’un site Web afin d’analyser son maillage interne par exemple.

Voici quelques détails sur les robots crawler !

Ma définition du crawler

Un crawler, communément appelé robot crawler ou logiciel de crawl, est un robot d’exploration destiné à explorer des sites et des contenus Web.

Les moteurs de recherche utilisent en permanence leurs crawlers pour évaluer les sites et les classer dans les pages de résultats.

Définitions Marketing souligne que les crawlers indexent et analysent les contenus explorés en partant des résultats d’un moteur (le plus souvent Google), à partir d’une liste, par soumission ou en suivant tous les liens rencontrés.

Il existe plusieurs types de robots crawler selon leur objectifs :

  • L’exploration de sites Web et construire un index comme le fait Google,
  • Faire la veille tarifaire,
  • Diagnostiquer le référencement d’un site Internet,
  • Optimiser des contenus,
  • Pratiquer le Black Hat SEO

Pour cela, il existe aussi des logiciels de crawl payants, à l’instar de :

  • Botify,
  • Deep crawl,
  • Screaming Frog,
  • SEMRush,
  • Oncrawl…

Et d’autres gratuits tels que :

  • LinkExaminer,
  • Xenu,
  • Free SEO Toolkit de Microsoft…

Note : en français, c’est aussi devenu un verbe … On entend souvent des expressions entre experts SEO du style « as-tu crawlé ton site récemment ? ».

À quoi ça sert un crawler ou spider ?

Un crawler ou spider sert généralement à :

  • Sélectionner les pages à télécharger,
  • Vérifier si ces pages ont été modifiées depuis la dernière analyse,
  • Éviter les surcharges de page Web,
  • Coordonner le travail avec les autres robots,
  • Créer un index,
  • Mémoriser l’adresse URL, l’identité du site et bien d’autres données…

Certains robots crawler peuvent être utilisés pour :

  • Récupérer des données relatives aux prix des produits,
  • Diagnostiquer votre propre site Web ou des sites tiers pour faire une analyse de la concurrence,
  • Collecter des adresses e-mail ou postales d’entreprises publiques…

L’augmentation croissante de la masse de données à trier et les problèmes liés à la bande passante rendent difficile le travail du crawler. En effet, actuellement, les internautes diffusent régulièrement d’importantes quantités d’informations sur le Web et il n’est pas évident pour les logiciels de crawl de les traiter en intégralité.

Pour aider le crawler ou robot de crawl dans son tri, vous pouvez ajouter dans le fichier robots.txt des règles d’exclusion.

Comment faire pour plaire aux robots d’exploration de Google ?

Pour plaire aux robots crawler de Google :

  • Veillez à soigner l’apparence de votre site Web,
  • Proposez un contenu unique et de qualité,
  • Évitez le duplicate content,
  • Mettez en place une stratégie de netlinking efficace (backlink, maillage interne…),
  • Choisissez un bon nom de domaine,
  • Optimisez la vitesse de chargement de vos pages,
  • Utilisez des URL canoniques, un Sitemap, des meta-tags…

Sachez que chaque composant du SEO constitue un critère d’évaluation pour les crawlers.

Par ailleurs, n’hésitez pas à crawler votre site Web en utilisant des méthodes telles que le “Follow mode” et/ou le “Cell text”.