Définition

Un crawler est un logiciel qu’utilise un moteur de recherche, qui est en charge d’analyser et de capter des ressources à partir d’une page Web, d’images, de vidéos, de documents Word, etc. Il va alors mémoriser l’adresse, l’identité du site, et bien d’autres données. Ces ressources serviront en partie pour gérer la fréquence des visites. Il est aussi possible d’aider le crawler dans son tri, en rajoutant un fichier d’exclusion au niveau de la racine d’un site web. Ce fichier servira à retenir seulement ce qui est utiles.

Extensions

Ce qui rend le travail du crawler difficile, c’est l’augmentation croissante de la masse de données à trier et la caractéristique de la bande passante. Parce qu’actuellement, de plus en plus d’internautes mettent facilement en ligne diverses sortes d’informations. Le problème de ces crawlers c’est de traiter un volume croissant d’informations avec un débit limité. Ils ont donc besoin de prioriser leurs téléchargements.

Le travail du crawler a par exemple permis d’attraper les internautes responsables de la diffusion d’images pédophiles. Son fonctionnement est le suivant :

  • Il sélectionne les pages à télécharger
  • Il revérifie si ces pages sont remodifiées
  • Il évite les surcharges de page Web
  • Il coordonne le travaille avec les autres robots.

Exemple

L’Héritrix est le crawler utilisé par Internet Archive, l’OrangeBot celui d’Orange, MSN Bot celui de MSN et Bing. Quant à Yahoo, le crawler utilisé s’appelle Slurp.

Analyse

Crawler est une technologie avancée, l’utilisation des données archivées aussi en est une autre, jusqu’où peut-on aller ? Beaucoup s’interrogent sur l’application de la loi de l’informatique et des libertés.