L’algorithme de Google est un mystère que peu de personnes peuvent percer. Il existe de nombreuses spéculations sur la façon dont il fonctionne et sur les facteurs qu’il prend en compte pour classer les sites.
Parmi ces facteurs, il y aurait le taux de clic, c’est-à-dire le nombre de fois qu’un internaute clique sur un résultat de recherche. C’est ce que révèle une récente audition d’un ancien employé de Google.
Dans cet article, nous allons analyser cette audition et les principales informations qu’elle apporte sur le rôle des clics dans l’algorithme de Google.
Le témoignage d’un ex-googler lors du procès antitrust contre Google
« Presque tout le monde sait que nous utilisons les clics dans les classements. La question qui se pose, cependant, est la suivante « Pourquoi essayez-vous d’obscurcir cette question si tout le monde le sait ?« .
Ces propos sont ceux d’Eric Lehman, un ancien membre du personnel de Google, qui a occupé le poste d’ingénieur logiciel chargé de la qualité des recherches et du classement pendant environ 17 ans avant de quitter l’entreprise en novembre.
M. Lehman a témoigné le 20 septembre dernier dans le cadre de l’action en justice intentée par les États-Unis contre Google pour pratiques monopolistiques.
Si vous ne connaissez pas cette citation, préparez-vous à ce qu’elle soit citée à plusieurs reprises.
Toutefois, il ne s’agit là que d’une partie des discussions suscitées par le témoignage de M. Lehman. Il s’est exprimé sur les systèmes d’apprentissage automatique de Google, BERT. Ces derniers deviennent de plus en plus cruciaux comparativement aux données des utilisateurs.
D’après Law360, il a affirmé :
« dans un sens, il est préférable d’avoir plus de données sur les utilisateurs, mais les nouvelles technologies et les systèmes ultérieurs peuvent utiliser moins de données sur les utilisateurs. Les choses évoluent très vite« .
L’avis de Lehman suggère que Google s’appuiera progressivement sur l’apprentissage automatique pour l’évaluation des textes, au lieu de s’appuyer principalement sur les données des utilisateurs.
Ce point de vue peut être noté dans un courriel de 2018 de Lehman, selon lequel :
“D’énormes quantités de commentaires d’utilisateurs peuvent être largement remplacées par un apprentissage non supervisé du texte brut« .
La confusion créée par le terme « données d’utilisateur » par rapport aux « données de formation », en particulier en ce qui concerne l’EEBR, comme l’a rapporté Big Tech on Trial, donne une dimension supplémentaire à cette question.
“La tentative du DOJ de mettre en cause le témoignage de Lehman a également semblé se retourner contre lui. En réponse à une question du DOJ demandant si Google avait un avantage à utiliser l’ORET par rapport à ses concurrents en raison de ses données d’utilisateur, Lehman a déclaré que le « plus grand avantage de Google à utiliser l’ORET » par rapport à ses concurrents était que Google avait inventé l’ORET.
Le DOJ a ensuite présenté une pièce à conviction intitulée « Bullet points for presentation to Sundar ». L’une des puces de cette pièce disait ce qui suit (d’après mes notes) : Tout concurrent peut utiliser BERT ou des technologies similaires.
Heureusement, nos données de formation nous donnent une longueur d’avance. Nous avons la possibilité de maintenir et d’accroître notre avance en utilisant pleinement les données de formation de l’ORET et en les mettant à la disposition de nos utilisateurs…
Cela aurait probablement constitué une mise en accusation efficace de Lehman si les ‘données de formation’ avaient signifié une sorte de données utilisateur.
Mais après que le ministère de la Justice a conclu son nouvel interrogatoire, le juge Mehta a demandé à Lehman à quoi se référaient les ‘données d’entraînement’. Lehman a expliqué qu’il s’agissait d’une notion différente des données de recherche des utilisateurs.
Les clics seraient un sujet sensible
Erin Murdock-Park, avocate du DOJ, a interrogé Lehman sur une diapositive de sa présentation soulignant les « sujets sensibles », qui demandait spécifiquement au personnel d’éviter de discuter du rôle des clics dans les opérations de recherche.
Selon les observations faites par Big Tech on Trial, Lehman a mentionné que
« nous essayons d’éviter de confirmer que nous utilisons les données des utilisateurs dans le classement des résultats de recherche« .
Les notes du journaliste sur X suggèrent que Lehman a affirmé :
“Je n’ai pas eu de bonnes notes à ce sujet, mais je pense que la raison a quelque chose à voir avec le fait de ne pas vouloir que les gens pensent que le référencement pourrait être utilisé pour manipuler les résultats de recherche.
Nous essayons d’éviter de confirmer que nous utilisons les données des utilisateurs dans le classement des résultats de recherche.”
Les notes n’étaient pas détaillées, mais il semble que l’idée était d’interdire la spéculation selon laquelle le référencement serait un outil permettant d’influencer les résultats de recherche.
Google = trompeur ?
Dès la parution de ce témoignage, les professionnels du référencement se sont empressés de considérer les déclarations de Lehman comme une preuve irréfutable des 25 ans de mensonges de Google concernant l’utilisation des clics ou des taux de clics.
La toute première question posée lors de l’AMA (Ask Me Anything) de la semaine dernière avec Gary Illyes de Google au Pubcon Pro d’Austin portait sur l’utilisation des clics par Google.
Gary Illyes a répondu « techniquement, oui », car Google intègre des données de recherche historiques dans son algorithme d’apprentissage automatique, RankBrain.
Dans le jargon de Google, « techniquement oui » implique une réponse affirmative. RankBrain a été formé à partir des données de recherche des utilisateurs.
Cela a été confirmé par Illyes lui-même lors de l’AMA ‘I am Gary Illyes, Google’s Chief of Sunshine, Happiness & trends analyst,’ sur Reddit en 2018.
Illyes avait expliqué que RankBrain emploie des données de recherche historiques pour anticiper la sélection la plus probable d’un utilisateur pour une requête inédite.
Depuis 2016, RankBrain est engagé dans toutes les recherches et impacte un nombre important d’entre elles.
Comment Google Search utilise-t-il les clics ?
Ce n’est pas parce que Google garde un œil sur chaque clic dans la recherche que les clics sont un facteur de classement immédiat. En d’autres termes, si le site X obtient 200 clics et le site Y 201, cela ne signifie pas que le site Y est automatiquement promu à la position 1.
Google utilise des évaluateurs de qualité pour évaluer ses résultats de recherche, de la même manière qu’il utilise les données de clics pour valider les expériences et la personnalisation.
Gary Illyes explique que :
“nous prenons un sous-ensemble d’utilisateurs et leur imposons l’expérience, le classement et/ou l’UX. Disons que 1% des utilisateurs reçoivent la mise à jour ou le candidat au lancement, le reste reçoit la version actuellement déployée (base).
Nous menons l’expérience pendant un certain temps, parfois des semaines, puis nous comparons certaines mesures entre l’expérience et la base. L’une de ces mesures est la différence entre les clics sur les résultats.”
En résumé
Il convient de retenir que les clics jouent un rôle important dans les classements. Étant donné que l’algorithme du moteur de recherche reste mystérieux, on ne pourrait affirmer avec certitude que les clics constituent un facteur de classement à part entière.