Lorsque Reddit a annoncé le mois dernier qu'il allait bloquer le scraping de données non autorisé sur son site, la première réaction (justifiée) de tous a été : "AI, AI, AI". Mais maintenant que la modification est entrée en vigueur, ce ne sont pas seulement les auteurs de chatbots qui pourraient être bloqués. Le forum largement répandu semble également bloquer d'autres grands moteurs de recherche tels que Brave et Google, qui auraient conclu en début d'année un contrat de 60 millions de dollars par an avec Reddit. Un porte-parole de Reddit a toutefois expliqué à Engadget que les résultats de recherche vides étaient dus au fait que les concurrents de Google n'étaient pas d'accord avec les exigences de formation en IA de l'entreprise. L'entreprise a déclaré être en pourparlers avec certains d'entre eux.
404 Media a rapporté mercredi (et Engadget l'a confirmé sur demande) que la recherche de résultats Reddit de la semaine dernière sur le moteur de recherche concurrent Bing (en utilisant "site:reddit.com") a donné des résultats vides.
La publication rapportait que DuckDuckGo affichait sept liens sans description et se contentait de fournir la remarque suivante : "Nous aimerions vous montrer une description ici, mais le site ne le permet pas". Le moteur de recherche semble maintenant avoir également supprimé ces liens, car notre test n'a donné qu'une page vide avec la mention "Aucun résultat trouvé".
Lorsque Reddit a annoncé le mois dernier qu'il mettait à jour son protocole d'exclusion des robots (robots.txt) pour bloquer le scraping automatisé, ce n'était manifestement pas seulement pour gêner les entreprises d'intelligence artificielle comme Perplexity et son "moteur de réponse" controversé. Actuellement, Google semble être le seul moteur de recherche autorisé à explorer Reddit et à fournir des résultats de la "première page d'Internet".
Un porte-parole de Reddit a déclaré mercredi à Engadget qu'il n'était pas correct de dire que l'absence de résultats de recherche était une conséquence de l'accord avec Google. "Nous bloquons tous les robots d'exploration qui ne sont pas prêts à s'engager à ne pas utiliser de données d'exploration pour l'apprentissage de l'IA, ce qui est conforme à l'application de notre politique de contenu public et à la mise à jour du fichier robots.txt", a déclaré la société. "Toute personne accédant au contenu de Reddit doit se conformer à nos politiques, y compris celles visant à protéger les utilisateurs de Reddit. Nous sommes sélectifs quant aux personnes avec lesquelles nous travaillons et à qui nous accordons un accès complet au contenu de Reddit".
Une source proche des réflexions de Reddit a déclaré mercredi à Engadget que l'omission de Bing était due au fait que Microsoft avait refusé d'accepter les conditions de Reddit concernant l'exploration de l'IA. Au lieu de cela, l'éditeur de Bing a affirmé que ses contrôles web standard étaient suffisants. La source affirme que l'attitude de Microsoft va à l'encontre de la politique de confidentialité de Reddit, ce qui a conduit à l'impasse et aux résultats de recherche vides.
L'omniprésent fichier robots.txt est le standard du web qui indique quelles parties d'un site web peuvent être explorées. Bien que de nombreux robots d'exploration soient connus pour ignorer ces instructions, Google les respecte par défaut. Les entreprises qui sont de connivence dans cette activité lucrative semblent donc avoir procédé à un contournement manuel.
Cette histoire pourrait être considérée comme un effet des chatbots d'intelligence artificielle qui parcourent le web en direct à la recherche de résultats. Comme les tribunaux sont lents à décider quelle part du web ouvert est autorisée pour l'entraînement des chatbots, des entreprises comme Reddit, dont les bénéfices dépendent de la protection de leurs données contre ceux qui ne paient pas, érigent des murs aux dépens du web ouvert. (Bien qu'il semble ironique que Bing soit du côté des perdants pour au moins un aspect de l'impact, compte tenu du rôle important que Microsoft a joué dans cette ère de l'IA en s'alliant très tôt à OpenAI).
Colin Hayhurst, CEO du moins connu moteur de recherche "no tracking" Mojeek, a déclaré à 404 Media que Reddit "tue tout pour la recherche, sauf Google". Le CEO a ajouté que ses tentatives de contacter Reddit avaient été ignorées. "Cela ne nous est jamais arrivé", a-t-il déclaré. "Nous sommes bloqués, la plupart du temps par ignorance ou par stupidité ou quoi que ce soit d'autre, et si nous contactons le site, ils peuvent certainement régler la question, mais nous n'avons jamais reçu de réponse de qui que ce soit".
Reddit n'a pas caché son intention d'empêcher les entreprises d'IA de puiser dans son trésor de données à l'ère de l'IA naissante. L'année dernière, le PDG Steve Huffman a pris le risque de s'aliéner une grande partie de sa base d'utilisateurs en bloquant les requêtes API de tiers, ce qui a entraîné le déclin d'applications populaires comme Apollo de Christian Selig. Malgré les protestations généralisées des modérateurs et des participants aux forums, l'entreprise n'a perdu que temporairement un nombre négligeable d'utilisateurs.