26 % des 100 meilleurs sites interdisent désormais à GPTBot l’accès à leur contenu - Twaino

26 % des 100 meilleurs sites interdisent désormais à GPTBot l’accès à leur contenu

Alexandre MAROTEL | CEO à Twaino

Alexandre Marotel

Une tendance récente a suscité l’attention de nombreux utilisateurs d’Internet. Il s’agit du fait que 26% des sites web les plus populaires ont choisi de bloquer GPTBot, le web crawler développé par OpenAI. Cette décision a suscité des interrogations sur les raisons cachées et les implications de cette restriction d’accès.

Dans cet article, nous examinerons de près cette tendance croissante et les raisons pour lesquelles certains des sites web les plus populaires ont opté pour le blocage de GPTBot. Nous verrons également les conséquences potentielles de cette décision sur l’accès au contenu en ligne et les raisons qui pourraient motiver ces sites à prendre de telles mesures.

Table des matières

De nombreux sites web ont commencé par bloquer l’accès à leurs contenus à GPTBot

Afin d’assurer la qualité de son principal service, qui est ChatGPT, OpenAI doit collecter une grande quantité de données sur le net. L’entreprise effectue normalement cette tâche par le biais de son robot d’exploration de sites Web, GPTBot.

Cependant, depuis le lancement de ce dernier le 7 août 2023, de plus en plus de sites ont commencé à bloquer son accès à leurs pages.

Par exemple, parmi les 100 sites Web les plus visités au monde, 26 ont choisi de restreindre l’accès à GPTBot, empêchant ainsi OpenAI de collecter les informations dont il a besoin.

100 sites Web les plus visités

Source : Originality.ai

Cette limitation représente un défi majeur pour l’entreprise, car elle dépend de ces données pour améliorer et enrichir l’expérience de ChatGPT.

En élargissant l’analyse aux 1 000 premiers sites Web, la situation est devenue encore plus préoccupante, car 242 d’entre eux ont pris la décision d’interdire complètement l’accès à GPTBot.

Liste des principaux sites Web qui ont bloqué GPTBot

Parmi les 100 meilleurs sites web qui ont refusé l’accès de GPTBot, on retrouve notamment les grandes marques telles que :

quora.com ;
pinterest.com ;
Amazon.com ;
cbsnews.com ;
indeed.com ;
theguardian.com ;
sciencedirect.com ;
usatoday.com ;
stackexchange.com ;
alamy.com ;
webmd.com ;
dictionnaire.com ;
Washingtonpost.com…

Vous pouvez découvrir la liste complète dans ce fichier Google Sheet.

Les raisons derrière le blocage de GPTBot ?

La possible explication derrière le blocage de GPTBot réside dans le souhait des sites Web concernés de préserver leurs données et de ne pas les mettre à disposition d’OpenAI pour l’entraînement de ses modèles, sans obtenir de compensation en retour.

Ce rejet est également motivé par le fait que ChatGPT ne fournit aucune source pour les résultats qu’il présente.

Contrairement aux bots IA, les moteurs de recherche traditionnels comme Google ont l’autorisation d’explorer les contenus, car ils offrent un avantage considérable : ils envoient du trafic via des liens/citations directs.

Il est évident qu’OpenAI doit faire face à des défis significatifs pour maintenir son accès aux données sur Internet. Cela souligne l’importance d’une approche réfléchie et respectueuse de la vie privée lors de la collecte de ces informations essentielles pour le développement de ses technologies.

Comment cette étude a été menée ?

Le 22 Août 2023, une étude a identifié les 1000 sites Web les plus populaires au monde. Elle a été par la suite mise à jour le 29 août puis le 22 septembre 2023.

1000 sites Web

Dans le cadre de cette analyse, chaque fichier robots.txt de ces sites a été minutieusement inspecté pour déterminer s’ils bloquaient l’accès à GPTBot ou d’autres robots d’exploration web.

Cependant, il est important de noter que certains sites Web avaient des fichiers robots.txt non identifiables ou n’ont pas pu être inspectés pour diverses raisons. Ces sites ont donc été exclus de cette étude.

Lorsque les acteurs de cette étude remarquent que l’accès à GPTBot est bloqué par un site, il utilise l’outil Archive.org pour retracer le moment précis où ce site avait commencé à restreindre l’accès aux robots d’exploration.

Néanmoins, un certain nombre de sites Web avaient également bloqué l’accès à Archive.org, rendant ainsi impossible la vérification de la date exacte à laquelle ils avaient commencé à bloquer GPTBot.

Le blocage de GPTBot a-t-il des inconvénients ?

Cette pratique peut avoir des inconvénients lorsque ChatGPT commencera à fournir aux utilisateurs des liens directs ou des références provenant de sources Web.

Il pourra ainsi jouer un rôle comparable à celui d’un moteur de recherche en générant un flux conséquent de visiteurs vers des sites web spécifiques.

Alors, si un site web bloque GPTBot, ces contenus pourraient ne pas être recommandés, ce qui peut lui faire perdre de potentiels visiteurs.

Autrement dit, tout comme le blocage de Googlebot empêcherait un site Web d’apparaître dans le des moteurs de recherche Google, bloquer GPTBot pourrait signifier passer à côté d’un canal de trafic Web en plein essor.

Il est donc essentiel pour les propriétaires de sites Web de réfléchir attentivement aux implications de bloquer GPTBot, car cela pourrait avoir un impact sur leur visibilité et leur accès à un public plus large.

Au fur et à mesure que la technologie évolue, il est important de trouver un équilibre entre la protection des ressources en ligne et l’exploitation des opportunités offertes par des outils comme GPTBot.

Que faut-il comprendre par le Web Crawling ou Scraping et est-ce légal ?

L’exploration ou le scraping du Web définit un processus automatisé au cours duquel un logiciel visite des sites Web afin de collecter des données spécifiques à partir de leurs pages.

Cette technique est fréquemment utilisée par les moteurs de recherche tels que Google pour indexer et organiser les pages Web. Cela facilite ainsi la recherche d’informations pour les utilisateurs.

Toutefois, la collecte automatique de données à partir de sites Web peut susciter des interrogations en ce qui concerne la sécurité et la vie privée. Certains sites Web contiennent des informations sensibles ou privées, et le fait de collecter ces données sans autorisation peut entraîner des problèmes juridiques.

En résumé

Pour conclure, le blocage croissant de GPTBot par les sites web les plus populaires provient principalement des préoccupations liées à la confidentialité. En plus de cela, il y a également une question d’intérêt, car ChatGPT ne mentionne pas souvent les sources de ses informations.

Twaino Agence SEO

Augmentez votre chiffre d'affaires grâce au SEO avec l'agence Twaino

Agence SEO Réserver un appel