Définition

Un crawler est un logiciel utilisé par un moteur de recherche pour analyser et capter des ressources à partir d’une page Web, d’images, de vidéos, de documents Word…

Il alors mémorise alors :

  • L’adresse URL,
  • L’identité du site,
  • Et bien d’autres données.

Ces ressources servent en partie pour gérer la fréquence des visites. Il est aussi possible d’aider le crawler dans son tri, en ajoutant dans le fichier robots.txt des règles d’exclusion.

Ce fichier, positionné au niveau de la racine de votre site web, sert à ne retenir seulement ce qui est utile.

Extensions

Ce qui rend le travail du crawler difficile est l’augmentation croissante de la masse de données à trier et la caractéristique de la bande passante.

Parce qu’actuellement, de plus en plus d’internautes mettent facilement en ligne diverses sortes d’informations.

Le problème de ces crawlers est donc de traiter un volume croissant d’informations avec un débit limité. Ils ont besoin de prioriser leurs téléchargements.

Le travail du crawler a par exemple permis d’attraper les internautes responsables de la diffusion d’images pédophiles. Son fonctionnement est le suivant :

  • Sélectionner les pages à télécharger,
  • Vérifier si ces pages ont été modifiées depuis son dernier passage,
  • Eviter les surcharges de page Web,
  • Coordonner le travail avec les autres robots.

Exemple de Crawler

L’Héritrix est le crawler utilisé par Internet Archive, l’OrangeBot celui d’Orange, MSN Bot celui de MSN et Bing. Quant à Yahoo, le crawler utilisé s’appelle Slurp.

Analyse

Crawler est une technologie avancée, l’utilisation des données archivées aussi en est une autre, jusqu’où peut-on aller ?

Beaucoup s’interrogent sur l’application de la loi de l’informatique et des libertés.