Amazon starebbe indagando su Perplexity AI in seguito ad accuse di scraping di siti web non autorizzati

Amazon Web Services ha avviato un'indagine per determinare se Perplexity AI stia violando le sue regole, come riporta Wired. In particolare, il dipartimento cloud dell'azienda sta indagando sulle accuse che il servizio stia utilizzando un crawler ospitato sui suoi server che ignora il Robots Exclusion Protocol. Questo protocollo è uno standard web in base al quale gli sviluppatori creano un file robots.txt su un dominio che contiene le istruzioni per consentire o meno ai bot di accedere a una determinata pagina. La conformità a queste istruzioni è volontaria, ma i crawler di aziende affidabili vi si sono generalmente attenuti da quando gli sviluppatori web hanno iniziato a implementare questo standard negli anni Novanta.
In un precedente articolo, Wired ha riportato la scoperta di una macchina virtuale che aggirava le istruzioni robots.txt del proprio sito web. Questa macchina era ospitata su un server Amazon Web Services con l'indirizzo IP 44.221.181.252, "probabilmente gestito da Perplexity". Secondo quanto riportato, anche altri siti web di Condé Nast sono stati visitati centinaia di volte negli ultimi tre mesi per raschiare i loro contenuti. Secondo Wired, anche il Guardian, Forbes e il New York Times hanno scoperto che Perplexity ha visitato più volte le loro pubblicazioni. Per verificare se Perplexity stesse effettivamente leggendo i loro contenuti, Wired ha inserito titoli o brevi descrizioni dei loro articoli nel chatbot dell'azienda. Lo strumento ha risposto con risultati che descrivevano fedelmente gli articoli di Wired "con un'attribuzione minima".
Secondo un recente rapporto della Reuters, Perplexity non è l'unica azienda di AI che sta aggirando i file robots.txt per raccogliere i contenuti utilizzati per addestrare modelli linguistici di grandi dimensioni. Tuttavia, sembra che Wired abbia fornito ad Amazon solo informazioni sul crawler di Perplexity AI. "I termini di servizio di AWS vietano le attività abusive e illegali e i nostri clienti sono responsabili del rispetto di tali termini", si legge in un comunicato di Amazon Web Services. "Riceviamo abitualmente segnalazioni di presunti abusi da diverse fonti e ci stiamo impegnando con i nostri clienti per comprendere queste segnalazioni". Il portavoce ha aggiunto che la divisione cloud dell'azienda ha dichiarato a Wired che sta indagando sulle informazioni fornite dalla pubblicazione, così come indaga su tutte le segnalazioni di possibili violazioni.
Sara Platnick, portavoce di Perplexity, ha dichiarato a Wired che l'azienda ha già risposto alle richieste di Amazon e ha negato che i suoi crawler aggirino il Robots Exclusion Protocol. "Il nostro PerplexityBot, che gira su AWS, rispetta il robots.txt e abbiamo confermato che i servizi controllati da Perplexity non effettuano crawling in modo da violare i Termini di servizio di AWS", ha dichiarato. Platnick ci ha detto che Amazon ha indagato sulla richiesta dei media di Wired solo come parte di un protocollo standard per indagare sulle segnalazioni di uso improprio delle sue risorse. A quanto pare, l'azienda non era a conoscenza di un'indagine prima che Wired contattasse Amazon. Tuttavia, Platnick ha ammesso a Wired che PerplexityBot ignora robots.text quando un utente inserisce un URL specifico nella richiesta del chatbot.
Aravind Srinivas, l'amministratore delegato di Perplexity, aveva anche negato in precedenza che la sua azienda "ignora il Protocollo di esclusione dei robot e poi mente su questo". Srinivas ha ammesso a Fast Company che Perplexity utilizza web crawler di terzi oltre ai propri e che il bot identificato da Wired era uno di questi.

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *