I motori di ricerca AI che non pagano non possono indicizzare i contenuti di Reddit

Quando il mese scorso Reddit ha annunciato che avrebbe bloccato lo scraping non autorizzato di dati dal suo sito, la prima reazione (giustificata) di tutti è stata: "AI, AI, AI". Ma ora che il cambiamento è entrato in vigore, non sono solo gli autori di chatbot che potrebbero essere esclusi. Il forum, molto utilizzato, sembra bloccare anche altri importanti motori di ricerca come Brave e Google, che secondo quanto riferito all'inizio di quest'anno ha siglato un accordo da 60 milioni di dollari all'anno con Reddit. Tuttavia, un portavoce di Reddit ha dichiarato a Engadget che i risultati di ricerca vuoti sono dovuti al fatto che i concorrenti di Google non sono d'accordo con i requisiti di formazione dell'IA dell'azienda. L'azienda afferma di essere in trattativa con alcuni di loro.

404 Media ha riferito mercoledì (e Engadget ha confermato quando gli è stato chiesto) che la scorsa settimana la ricerca di risultati di Reddit sul motore di ricerca rivale Bing (utilizzando "site:reddit.com") ha restituito risultati vuoti.

La pubblicazione ha riportato che DuckDuckGo ha visualizzato sette link senza descrizione e ha fornito solo la nota: "Vorremmo mostrarti una descrizione qui, ma il sito web non lo consente". Ora il motore di ricerca sembra aver rimosso anche questi link, poiché il nostro test ha rivelato solo una pagina vuota con la nota "Nessun risultato trovato".

Quando il mese scorso Reddit ha annunciato l'aggiornamento del suo protocollo di esclusione dei robot (robots.txt) per bloccare lo scraping automatico, è chiaro che non si trattava solo di ostacolare le aziende di AI come Perplexity e il suo controverso "motore di risposta". Attualmente, Google sembra essere l'unico motore di ricerca a cui è consentito effettuare il crawling di Reddit e restituire i risultati della "prima pagina di Internet".

Un portavoce di Reddit ha dichiarato mercoledì a Engadget che non è corretto affermare che i risultati di ricerca mancanti siano il risultato dell'accordo con Google. "Blocchiamo tutti i crawler che non sono disposti a impegnarsi a non utilizzare i dati dei crawl per l'addestramento dell'intelligenza artificiale, il che è coerente con l'applicazione della nostra Public Content Policy e del file robots.txt aggiornato", ha dichiarato l'azienda. "Chiunque acceda ai contenuti di Reddit deve rispettare le nostre politiche, comprese quelle volte a proteggere gli utenti di Reddit. Siamo selettivi su chi lavora con noi e su chi concede pieno accesso ai contenuti di Reddit".

Una fonte che ha familiarità con le riflessioni di Reddit ha dichiarato mercoledì a Engadget che l'omissione di Bing è dovuta al rifiuto di Microsoft di accettare le condizioni di Reddit relative al crawling dell'IA. Al contrario, il produttore di Bing ha affermato che i suoi controlli web standard erano sufficienti. La fonte sostiene che la posizione di Microsoft contraddice la politica sulla privacy di Reddit, il che ha portato all'impasse e ai risultati di ricerca vuoti.

L'onnipresente file robots.txt è lo standard web che specifica quali parti di un sito web possono essere sottoposte a crawling. Sebbene sia noto che molti crawler ignorano queste istruzioni, Google le rispetta per impostazione predefinita. Le aziende coinvolte in questo lucroso business sembrano quindi aver implementato un workaround manuale.

La storia potrebbe essere vista come un effetto dei chatbot AI che setacciano il web in cerca di risultati. Mentre i tribunali tardano a decidere quanta parte del web aperto sia consentita per l'addestramento dei chatbot, aziende come Reddit, i cui profitti dipendono dalla protezione dei propri dati da chi non paga, stanno costruendo muri a spese del web aperto. (Anche se sembra ironico che Bing sia dalla parte dei perdenti in almeno un aspetto delle conseguenze, dato il ruolo importante che Microsoft ha svolto in questa era dell'IA alleandosi con OpenAI fin dall'inizio).

Colin Hayhurst, amministratore delegato del meno noto motore di ricerca "no-tracking" Mojeek, ha dichiarato a 404 Media che Reddit sta "uccidendo tutto per la ricerca, tranne Google". L'amministratore delegato ha aggiunto che i suoi tentativi di contattare Reddit sono stati ignorati. "Non ci era mai successo prima", ha detto. "Veniamo bloccati, per lo più per ignoranza o stupidità o altro, e quando contattiamo il sito sono sicuro che possono risolvere il problema, ma non abbiamo mai ricevuto una risposta da nessuno".

Reddit non ha fatto mistero del suo desiderio di impedire alle aziende di IA di attingere al suo tesoro di dati nell'emergente era dell'IA. L'anno scorso, l'amministratore delegato Steve Huffman ha rischiato di alienarsi gran parte della sua base di utenti bloccando le richieste di API di terze parti, causando la scomparsa di applicazioni popolari come Apollo di Christian Selig. Nonostante le diffuse proteste dei moderatori e dei partecipanti al forum, l'azienda ha perso solo temporaneamente un numero trascurabile di utenti.

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *