Als Reddit letzten Monat ankündigte, dass es unautorisiertes Daten-Scraping von seiner Website blockieren würde, war die erste (berechtigte) Reaktion aller: „AI, AI, AI“. Doch jetzt, da die Änderung in Kraft getreten ist, könnten nicht nur Chatbot-Autoren ausgesperrt werden. Das weit verbreitete Forum scheint auch andere große Suchmaschinen wie Brave und Google zu blockieren, die Berichten zufolge Anfang des Jahres einen Vertrag über 60 Millionen Dollar pro Jahr mit Reddit abgeschlossen haben. Ein Reddit-Sprecher erklärte jedoch gegenüber Engadget, dass die leeren Suchergebnisse darauf zurückzuführen seien, dass Googles Konkurrenten nicht mit den KI-Trainingsanforderungen des Unternehmens einverstanden seien. Das Unternehmen befindet sich nach eigenen Angaben in Gesprächen mit einigen von ihnen.
404 Media berichtete am Mittwoch (und Engadget bestätigte dies auf Anfrage), dass die Suche nach Reddit-Ergebnissen der letzten Woche auf der konkurrierenden Suchmaschine Bing (unter Verwendung von „site:reddit.com“) leere Ergebnisse lieferte.
Die Publikation berichtete, dass DuckDuckGo sieben Links ohne Beschreibung anzeigte und nur den Hinweis lieferte: „Wir würden Ihnen hier gerne eine Beschreibung zeigen, aber die Website lässt dies nicht zu“. Die Suchmaschine scheint nun auch diese Links entfernt zu haben, denn unser Test ergab nur eine leere Seite mit dem Hinweis „Keine Ergebnisse gefunden“.
Als Reddit im vergangenen Monat ankündigte, sein Robots Exclusion Protocol (robots.txt) zu aktualisieren, um automatisiertes Scraping zu blockieren, war dies offensichtlich nicht nur dazu gedacht, KI-Unternehmen wie Perplexity und seine umstrittene „Antwortmaschine“ zu behindern. Derzeit scheint Google die einzige Suchmaschine zu sein, die Reddit durchsuchen und Ergebnisse von der „ersten Seite des Internets“ liefern darf.
Ein Reddit-Sprecher sagte Engadget am Mittwoch, es sei nicht korrekt zu sagen, dass die fehlenden Suchergebnisse eine Folge des Google-Deals seien. „Wir blockieren alle Crawler, die nicht bereit sind, sich zu verpflichten, keine Crawl-Daten für das KI-Training zu verwenden, was im Einklang mit der Durchsetzung unserer Public Content Policy und der aktualisierten robots.txt-Datei steht“, sagte das Unternehmen. “Jeder, der auf Reddit-Inhalte zugreift, muss sich an unsere Richtlinien halten, einschließlich derer, die dem Schutz der Reddit-Nutzer dienen. Wir sind wählerisch, mit wem wir zusammenarbeiten und wem wir vollen Zugriff auf Reddit-Inhalte gewähren.”
Eine Quelle, die mit den Überlegungen von Reddit vertraut ist, sagte Engadget am Mittwoch, dass die Auslassung von Bing darauf zurückzuführen sei, dass Microsoft sich geweigert habe, die Bedingungen von Reddit in Bezug auf das Crawlen von KI zu akzeptieren. Stattdessen behauptete der Hersteller von Bing, dass seine Standard-Webkontrollen ausreichend seien. Die Quelle behauptet, dass Microsofts Haltung den Datenschutzrichtlinien von Reddit widerspricht, was zu der Sackgasse und den leeren Suchergebnissen führte.
Die allgegenwärtige Datei robots.txt ist der Webstandard, der angibt, welche Teile einer Website gecrawlt werden dürfen. Obwohl viele Crawler dafür bekannt sind, diese Anweisungen zu ignorieren, hält sich Google standardmäßig daran. Die Unternehmen, die bei diesem lukrativen Geschäft unter einer Decke stecken, scheinen also eine manuelle Umgehung vorgenommen zu haben.
Die Geschichte könnte als eine Auswirkung von KI-Chatbots gesehen werden, die das Live-Web nach Ergebnissen durchsuchen. Da die Gerichte nur langsam entscheiden, wie viel des offenen Webs für das Training von Chatbots zulässig ist, errichten Unternehmen wie Reddit, deren Gewinne davon abhängen, ihre Daten vor denjenigen zu schützen, die nicht zahlen, Mauern auf Kosten des offenen Webs. (Obwohl es ironisch erscheint, dass Bing zumindest bei einem Aspekt der Auswirkungen auf der Verliererseite steht, wenn man bedenkt, welche wichtige Rolle Microsoft in dieser KI-Ära gespielt hat, indem es sich frühzeitig mit OpenAI verbündete).
Colin Hayhurst, CEO der weniger bekannten „No-Tracking“-Suchmaschine Mojeek, sagte gegenüber 404 Media, dass Reddit „alles für die Suche tötet, außer Google“. Der CEO fügte hinzu, dass seine Versuche, Reddit zu kontaktieren, ignoriert worden seien. „Das ist uns noch nie passiert“, sagte er. „Wir werden geblockt, meistens aus Unwissenheit oder Dummheit oder was auch immer, und wenn wir die Seite kontaktieren, können sie das sicher klären, aber wir haben noch nie eine Antwort von irgendjemandem bekommen.“
Reddit hat keinen Hehl daraus gemacht, dass es KI-Unternehmen daran hindern will, seinen Datenschatz im aufkommenden KI-Zeitalter anzuzapfen. Im vergangenen Jahr riskierte CEO Steve Huffman, einen großen Teil seiner Nutzerbasis zu verprellen, indem er API-Anfragen von Drittanbietern blockierte, was zum Niedergang beliebter Anwendungen wie Apollo von Christian Selig führte. Trotz weit verbreiteter Proteste von Moderatoren und Forenteilnehmern verlor das Unternehmen nur vorübergehend eine vernachlässigbare Anzahl von Nutzern.