Le 28 mai 2024, une fuite de documents internes à Google a fuité, révélant de nombreux détails sur le fonctionnement de son algorithme, ce qui a fait réagir l’univers du SEO et du marketing numérique. Par contre Google nie l’authenticité de toutes les informations qui auraient fuité. Ce sont quand même des informations importantes sur les potentiels facteurs de classement dans l’algorithme du moteur de recherche pour classer les pages Web. Nous allons voir quelques points importants abordés dans ce leak Google.
Google Dans le milieu du SEO, il est important de comprendre comment Google classe les pages Web pour pouvoir mieux référencer les sites Web. Ce leak de Google confirme l’existence de facteurs importants pour classer les pages Web qui était pressentie par certains experts SEO. Par contre, il faut faire attention aux informations provenant de ces documents non confirmés par Google et doit être pris avec des pincettes. Ces documents peuvent être déjà obsolètes ou partiellement mis en œuvre par Google, il ne faut donc pas radicalement modifier votre stratégie SEO sur la base de ces documents qui ont fuité, mais peuvent servir de base à une réflexion pour optimiser vos sites web.
Domain authority et autorité de site
L’une des choses qu’on remarque en premier dans le leak Google, c’est l’existence possible de métriques d’autorité de domaine pour évaluer les sites Web. Ce qui est en contradiction avec les déclarations que Google a faites par le passé affirmant n’évaluer que les pages individuellement d’un site comme le PageRank, ce qui voudrait dire que les sites ont une note globale pour pouvoir être classés sur Google, ce qui implique que l’autorité d’un site aura un impact sur la visibilité du contenu dans les résultats de recherche, surtout si ce contenu est nouveau, n’ayant pas encore de score PageRank propre à cette page Web.
PageRank de la page d’accueil
Une autre information intéressante que l’on découvre dans ce leak, c’est que le PageRank de la page d’accueil peut être utilisé par les nouvelles pages du site jusqu’au moment où cette page obtienne son propre score de PageRank. Elle permet au tout début de la vie d’une page d’avoir un score de PageRank initial pour être réévalué par la suite. Cela montre l’importance de la page d’accueil au sein d’un site web et le besoin que celle-ci soit bonne, car elle affectera le PageRank initial de chaque page du site, influençant donc toutes les autres pages.
L’importance du clic et des signes utilisateur
Malgré que Google ait toujours nié l’influence des signaux utilisateurs dans le classement des pages et des sites Web, le leak de Google nous révèle le contraire. Les interactions des utilisateurs et les clics selon le document sont analysés pour être un des facteurs déterminant la qualité d’une page Web.
Rôle des clics
Les clics ont un rôle important pour indiquer l’engagement des internautes et les systèmes comme NavBoost peuvent avoir accès à toutes les informations liées au clic et celles-ci peuvent être donc utilisées pour ajuster le classement de la page d’un site web. NavBoost peut discerner plusieurs types de clic comme les « good clicks », les « bad clicks » ou les « last longest clicks » et évaluer les interactions de l’utilisateur. Cela permet d’évaluer l’interaction de l’internaute et son temps passé sur une page, indiquant la pertinence du contenu.
Signaux utilisateur
Pour évaluer la qualité d’une page Web, les signaux utilisateurs comme le temps passé sur une page et le taux de clic sont enregistrés par Google. Ces métriques permettent de confirmer la pertinence de la page dans le moteur de recherche. Un nombre de clics important et une durée importante passée sur le site sont des signaux positifs de la qualité du site Web.
Indexation et mémoire des pages
Système d’indexation en SEO
L’indexation des pages de site Web est un sujet important, c’est la première chose à faire pour être visible dans les moteurs de recherche pour une nouvelle page. L’indexation des pages sur Google se fait via plusieurs systèmes d’indexation différents. Il y a tout d’abord le système Alexandria qui est l’indexeur principal de Google et gère l’index principal, et c’est le système le plus souvent mis à jour. Le système SegIndex sert à classer par catégorie dans l’index les différents sites Web. Le système Terra Google permet de stocker à long terme les sites dans l’index. Ces différents systèmes d’indexations Google sont là pour classer dans l’index de façon efficace les contenus et permettre de rendre accessible rapidement aux utilisateurs le résultat de recherche.
L’historique des pages en mémoire
Le leak Google nous apprend que Google conserve en mémoire les versions précédentes d’une page Web. Il enregistre les 20 dernières versions d’un document, cela lui permet de voir l’évolution des modifications d’une page d’un site. Les mises à jour et les différentes versions antérieures d’une page peuvent influencer son classement dans le moteur de recherche. Faire des mises à jour significatives et régulières peut donc influencer le classement des pages Web.
Sandbox et HostAdge
Sandbox et concept du bac à sable
Le leak Google parle du concept de « Sandbox » qui affecterait les nouveaux sites web en les mettant à part comme un bac à sable où ils devront faire leur preuve et prouver leur fiabilité pour ensuite pouvoir avoir un meilleur classement dans les résultats de recherche. Dans les documents de Google, on s’aperçoit que Google utilise la métrique « HostAge » pour ses nouveaux sites. Cette métrique est une indication sur l’âge du site valorisant les sites web les plus anciens qui obtiennent des changements de classement plus rapidement et les nouveaux sites passant par une période d’évaluation. L’âge d’un site est donc un facteur de filtrage dans le classement du moteur de recherche, ce qui confirme les observations empiriques de nombreux spécialistes SEO.
L’importance de « HostAge »
La métrique de « HostAge » montre que les nouveaux sites ont plus de difficultés à être dans les premiers résultats de recherche, contrairement aux plus anciens, qui ont un avantage en visibilité. Cela explique l’efficacité des domaines expirés utilisés pour faire un nouveau site.
Whitelist de certains sites web
Dans les documents du leak Google, on peut voir que certains sites ont des traitements de faveur en les plaçant sur des listes blanches. Ces listes blanches permettent aux sites qui sont intégrés une meilleure visibilité et un classement dans le moteur de recherche plus favorable que la normale sur certains sujets sensibles comme la santé ou la politique. Les sites que Google met en liste blanche sont mis en avant sur les résultats de recherche. Par exemple, lors de la pandémie COVID-19, les sites de santé locaux ou des autorités sanitaires ont été mis dans la liste blanche pour faciliter la gestion des informations concernant ce sujet sensible. Par exemple, les sites gouvernementaux sont souvent dans la liste blanche de Google.