Vu du côté internaute, le fonctionnement de Google et des autres moteurs de recherche semblent très simples.

Vous saisissez votre requête dans la boîte de recherche. Et en moins de temps qu’il faut pour le dire, vos résultats s’affichent.

Voici la question que j’ai posée à Laurent : “Sais-tu comment Google m’affiche les bons résultats lorsque je tape une requête ?”

En “cuisine”, ce résultat instantané est produit par un ensemble complexe de processus. Ils identifient les données les plus pertinentes quand tu cherches ta recette préférée, un produit, une information ou tout simplement à obtenir une réponse à une question. Les détails du processus sont techniquement très complexes. Néanmoins, connaître les bases non-techniques de leur fonctionnement est utile pour comprendre les méthodes de référencement naturel (SEO).

1. Un travail de titan

Google : Comment Ca Marche ? Explorer, Indexer & Classer

En 2017, Google annonçait connaître plus de 130 mille milliards de pages web.

Aujourd’hui, il ne communique plus sur ce chiffre.

Quoiqu’il en soit, c’est énorme, 1,000 multiplié par 130 milliards !

Aujourd’hui, c’est peut-être encore plus.

D’autant qu’il existe de nombreuses pages que Google ne prend pas en compte.

Par exemple, les pages de Facebook ne sont pas répertoriées par Google, sans parler du Dark web.

Vu toute cette quantité de pages, comment sortir du lot et se démarquer de la concurrence ?

C’est ce que les experts en Marketing Digital appellent le référencement naturel.

Et pour être un champion en SEO, autant savoir comment les moteurs de recherche fonctionnent.

Afin que les résultats d’une requête soient les plus pertinents possibles pour les internautes, Google et les autres moteurs de recherche ont mis en place un processus bien huilé pour identifier les meilleures pages web en fonction de la requête demandée.

En résumé, comme l’explique Google, le fonctionnement d’un moteur de recherche est composé de 3 mécanismes :

  • Explorer le web, c’est-à-dire parcourir les liens un à un pour découvrir les pages les plus importantes sur le web,
  • Indexer les pages, c’est à-dire enregistrer certaines informations des pages identifiées,
  • Classer les résultats, c’est-à-dire comprendre le sujet d’une page et la classer selon les requêtes que l’internaute demande.

a. Explorer le web – Les rouages secrets des robots

Les moteurs de recherche ont des programmes “robots” (aussi appelés “spider” ou “crawler”).

Ces robots naviguent dans le labyrinthe du web pour découvrir les pages qui existent.

Concrètement, lorsqu’un robot tombe sur une page web, il la scanne pour trouver les liens vers d’autres pages.

En suivant ces liens, les robots parcourent les milliards de pages interconnectés entre elles.

C’est un peu comme tirer sur un bout du fil de la pelote de laine.

Ainsi, comme les internautes, les robots découvrent chaque jour de nouvelles pages sur le web.

Chaque lien trouvé est ensuite mis dans une file d’attente que le robot va explorer par la suite.

Parcourir chaque jour, les milliards de pages du web est sûrement impossible à faire.

En effet, même avec tous ses robots et ordinateurs, j’imagine que Google met plusieurs jours, voire semaines, pour tout explorer.

Alors, il doit trier selon l’autorité du nom de domaine ou un critère équivalent. Il doit aussi avoir une notion qui prend en compte le rythme de publication du contenu.

Mes conseils :

Pour faciliter la tâche des robots, il est fortement conseillé de :

  • Déclarer son site web aux moteurs de recherche avec un fichier sitemaps.xml,
  • Configurer votre fichier robots.txt qui indique aux robots les pages à prendre ou à ne pas prendre en compte lors de leur exploration.

Il est aussi indispensable de :

  • Bien déclarer vos redirections pour éviter d’avoir des liens cassés,
  • Maximiser votre maillage interne pour ne pas avoir des pages orphelines. C’est-à-dire des pages non reliées avec au moins une autre page de votre site web.

Et pour identifier les liens cassés de votre site web, utilisez le service en ligne gratuit « Broken Link Checker« . Puis avec la liste des liens cassés, sur WordPress, faites vos redirections avec l’extension gratuite « redirection« .

Pour les experts, soumettez vos nouvelles publications à Google directement dans la Google Search Console avec son outil d’inspection d’URL.

b. Indexer les pages ou l’art de structurer le web

L’indexation est le second mécanisme du fonctionnement d’un moteur de recherche.

Une fois les pages explorées, les informations capturées doivent être soigneusement organisées dans l’index de recherche.

Pour cela, les techniques de traitement du langage naturel (NLP) entrent en jeu pour extraire le sens et la signification des contenus.

C’est de cette manière que les moteurs de recherche comprennent et catégorisent chaque page.

Concrètement, pour chaque page, le robot récupère certaines informations et vient alimenter ou mettre à jour l’index.

L’index est une base de données. Elle regroupe un ensemble d’informations des pages explorées par les robots des moteurs de recherche.

Dans cet index, on retrouve page par page :

  • L’adresse URL,
  • Des informations sur le contenu comme le titre, le texte, les balises meta, le nom des images, les attributs texte des images…
  • La liste des liens pointant de cette page vers d’autres pages et leur texte d’ancrage,
  • D’autres informations sur les liens. Par exemple, sont-ils des liens publicitaires ? À quel endroit se trouvent-ils sur la page ?…

C’est la version moderne des fiches du bibliothécaire qui recensent tous les livres de sa bibliothèque.

Lorsqu’un utilisateur saisit une requête dans le moteur de recherche, Google consulte alors cet index pour récupérer les données pertinentes.

C’est le bibliothécaire nouvelle génération qui consulte ses fiches quand vous lui demandez un livre.

Si vous lui demandez un livre sur “les médecines douces”, le bibliothécaire parcourt ses fiches et vous conseille tel ou tel livre.

C’est pareil pour Google.

D’ailleurs, votre Google Search Console dispose d’un rapport de couverture de l’indexation.

Avec ce rapport, vous identifiez les pages indexées et les problèmes éventuels que les robots d’exploration ont pu rencontrer.

c. Classer les résultats

Avant de décider quelles pages doivent figurer dans les pages de résultats et dans quel ordre, les moteurs de recherche s’appuient sur des algorithmes pour les classer.

Des algorithmes avancés, y compris le célèbre PageRank et ses dérivés, examinent différents éléments comme la pertinence, l’autorité du site et les mises à jour du contenu, pour obtenir une liste bien organisée.

Concrètement, afin de fournir des résultats pertinents, les moteurs de recherche effectuent 3 étapes :

C’est là où intervient le référencement naturel.

Un référencement efficace contribue à influencer l’importance et la pertinence de ces pages web pour les requêtes correspondantes.

d. Alors, qu’est-ce que la pertinence et l’importance d’une page web ?

La pertinence

La pertinence est une note qui mesure la correspondance entre le contenu et l’intention derrière la requête de l’internaute.

L’intention est ce que les internautes essaient de trouver avec cette recherche.

Par exemple, avec telle requête, l’internaute cherche-t-il à s’informer sur un produit ou à l’acheter ?

L’importance

Plus une page web est mentionnée par d’autres pages, plus elle est “importante”.

En effet, chaque mention est comme un vote de confiance.

Traditionnellement, cela se présente sous la forme de liens provenant d’autres sites web vers cette page web.

C’est ce que l’on appelle les backlinks ou les liens entrants.

Pour attribuer les notes de pertinence et d’importance, les moteurs de recherche ont mis au point des algorithmes complexes.

Google prend en compte a priori plus de 200 critères pour déterminer la pertinence et l’importance d’une page web donnée.

Nous n’aurons probablement jamais la liste complète des critères que les moteurs de recherche comme Google utilisent dans leurs algorithmes.

Comme pour la recette du coca-cola, c’est un secret bien gardé.

Ne serait-ce pour éviter que des spammeurs utilisent cette connaissance pour contourner le système et polluer le web.

Par ailleurs, ces algorithmes évoluent en permanence pour donner de meilleurs résultats aux internautes.

Mes 3 conseils :

  • Définissez bien vos internautes cible,
  • Prenez en compte leurs différentes intentions,
  • Et travaillez vos backlinks.

2. Comment les moteurs de recherche évaluent-ils un contenu ?

Évaluation du contenu par les moteurs de recherche : Comment ça se passe ?

Malgré tout, les moteurs de recherche ont dévoilé certains critères que vous pouvez utiliser pour travailler votre référencement naturel (SEO).

Pour bien classer ses résultats, un moteur de recherche doit comprendre la nature du contenu de chaque page web qu’il a exploré.

Le contenu d’une page web est un facteur très important dans son algorithme.

Google a d’ailleurs confirmé que le contenu et les liens sont 2 des principaux facteurs de classement d’une page.

Pour info, le troisième est l’algorithme « RankBrain » qui schématiquement apprend le sens de requêtes similaires, mais formulées différemment.

Pour comprendre le contenu d’une page, les moteurs de recherche établissent une “carte sémantique” en analysant tous les mots et les phrases.

À partir de cette carte, Google se pose les questions suivantes :

  • Combien de fois cette page contient-elle un mot-clé ?
  • Ces mots-clefs apparaissent-ils dans le titre et dans l’URL ?
  • La page inclut-elle des synonymes pour les termes de recherche ?…

C’est pourquoi je vous parle souvent de l’importance de choisir les bons mots-clés.

3. Comment les moteurs de recherche “voient” une page web

Exploration de la vision des moteurs de recherche d’une page web

Afin de comprendre le contenu, les moteurs de recherche analysent les données trouvées sur une page web pour leur donner un sens.

Tout d’abord, vous devez savoir que les moteurs de recherche ne « voient » pas les pages web comme nous.

Les moteurs de recherche « voient » le Document Object Model (ou DOM) de la page pour voir ce qu’elle contient.

Pour simplifier, le DOM est le code HTML et le Javascript de la page.

Vous pouvez regarder le code source de la page pour vous donner une idée de ce que les moteurs de recherche “voient”.

Pour cela, cliquez avec le bouton droit sur la page web de votre navigateur et cliquez sur “Afficher le code source”.

Sur l’image ci-dessus, à gauche, la vue normale de cet article, à droite, le code source correspondant.

Bon, c’est un peu illisible, mais le contenu d’une page web se trouve souvent dans ce code source.

En plus du contenu sur la page, il existe d’autres éléments qui aident les moteurs de recherche à comprendre votre page.

a. Les métadonnées de la page web

Cela comprend entre autres la balise de titre et la balise de méta-description. Ces balises servent de titre et de description de la page web dans les résultats de la recherche.

Mon conseil : j’insiste dès que je le peux. Ces balises doivent être travaillées avec attention pour optimiser le référencement d’une page.

De la même manière, il y a aussi les données structurées.

b. Les attributs “alt” pour les images sur une page web

A priori, les moteurs de recherche ne savent pas encore très bien « interpréter » les images.

Donc, ils se servent de ces descriptions que je vous conseille de rajouter pour bien décrire l’objet de l’image.

Mon conseil : ce n’est pas obligatoire. Mais comme ces attributs alt permettent de mieux comprendre le contenu de la page, cela joue sur le SEO de votre page. C’est pourquoi il ne faut pas les négliger. J’aborde ce sujet en détail dans mon guide complet pour optimiser vos images sur WordPress.

Note : ces attributs “alt” servent aussi aux personnes malvoyantes qui utilisent un logiciel qui leur dicte le contenu d’une page.

4. Les moteurs de recherche ne « voient » pas tout

Il est important de connaître les éléments d’une page web que les moteurs de recherche ne “voient” pas.

Ainsi, vous pouvez adapter le contenu de votre site web pour aider les robots à mieux le comprendre.

Nous avons déjà mentionné les images et la façon dont les attributs alt aident les robots à comprendre à quoi correspond une image.

Mais d’autres éléments ne peuvent pas être interprétés par les moteurs de recherche.

a. Les fichiers “Flash”

Google a déclaré qu’il pouvait extraire certaines informations des fichiers Adobe Flash.

Mais c’est plutôt difficile. Car dans un premier temps, on peut considérer que Flash est similaire à une image. Certes, il est possible de rajouter du texte pour expliquer l’objet du Flash. Malheureusement, peu de développeurs y pensent.

Mon conseil : préférez plutôt HTML5 qui est une alternative compatible avec les moteurs de recherche.

b. Les fichiers audio et vidéo

Comme pour les images, les moteurs de recherche ont des difficultés pour comprendre les fichiers audio ou vidéo, même si des avancées significatives ont été réalisées.

Ils sont plus à l’aide avec du contenu textuel.

Mon conseil : ajoutez les transcriptions de vos fichiers audio et/ou vidéo pour aider les moteurs de recherche à mieux les comprendre. C’est aussi une fonction proposée par YouTube.

c. Les programmes

Par exemple, AJAX et d’autres formes de JavaScript sont des programmes qui affichent dynamiquement le contenu d’une page web. Google travaille pour les prendre en compte, mais il a encore de nombreuses limites.

d. Les balises iframes

Une balise iframe est utilisée pour intégrer le contenu d’un autre site dans votre page web. Par exemple, les bannières publicitaires sont dans des balises iFrame.

Sur certains sites, le captcha que vous devez valider avant de saisir un commentaire en est une aussi.

Évidemment, Google ne traite pas ce contenu comme s’il faisait partie de votre page, puisqu’il provient d’un autre site web.

5. Mes réflexions personnelles sur comment fonctionne Google

Réflexions persos sur le fonctionnement des moteurs de recherche

Aucune technologie n’est impartiale.

Prenons un exemple pour illustrer mes propos. Tapez « beauté » sur Google Image.

Selon les algorithmes de Google, la beauté se résume à un jeune visage féminin à la peau blanche !

Il n’y a aucune place dans ces résultats pour Audrey Hepburn ou encore :

  • Le sourire d’un inconnu,
  • Un lever de soleil,
  • Ou une peinture de Renoir…

Chaque technologie a ses compromis et ses travers.

Le travers dans l’exemple ci-dessus est dû tout simplement au secteur de la cosmétique. Ce secteur investit plus d’argent et publie plus de contenus sur le web que les amateurs des tableaux de Renoir.

Dans ces conditions, la cosmétique devient rapidement la norme pour définir les canons de la beauté.

FAQ – 3 questions fréquentes sur le fonctionnement de Google

Comment Google détermine les résultats de recherche ?

Google utilise des programmes automatisés appelés spiders ou crawlers qui explore le web et rapatrie le contenu des pages sur ses serveurs. Google dispose aussi d’un grand index de mots-clés qui déterminent les résultats de recherche qu’ils classent après leur avoir attribués un score de pertinence.

Quelle est la différence entre le crawl et l’indexation ?

L’exploration et l’indexation sont 2 choses distinctes. L’exploration signifie que le robot d’exploration, Googlebot, examine tout le contenu/code de la page. L’indexation signifie que la page est éligible pour apparaître dans les résultats de recherche de Google.

À quelle fréquence Google explore-t-il un site internet ?

La durée entre 2 explorations varie entre quelques jours et quelques semaines selon une myriade de facteurs. Cela peut même être instantané pour un site d’actualité.

En conclusion sur comment fonctionne Google et pourquoi s’en préoccuper ?

Je suis persuadée que le fait de connaître les 3 étapes de Google – explorer, indexer, classer – ne peut que vous aider.

Le site web de votre entreprise sera mieux harmonisé pour faciliter sa compréhension pour les moteurs de recherche.

Ainsi, votre référencement sera meilleur et vous aurez plus de nouvelles opportunités grâce à Internet.

Pour gagner du temps sur les aspects techniques, tout en faisant plaisir à Google, je vous conseille fortement au minimum de :

  • Consulter régulièrement votre Google Search Console (ex webmaster Tools) pour corriger les erreurs que Google vous signale,
  • Suivre les consignes de l’extension Yoast pour WordPress avant toute publication.

Et voilà de quoi découvrir tous les enjeux du référencement naturel.

Qu’avez-vous appris sur le fonctionnement des moteurs de recherche ? Que pensez-vous de Google ? Quel pourcentage de votre trafic génère-t-il ?