Amazon enquêterait sur Perplexity AI après des accusations de lecture non autorisée de sites web

Amazon Web Services a lancé une enquête pour déterminer si Perplexity AI enfreint ses règles, rapporte Wired. Concrètement, le département cloud de l'entreprise enquête sur des accusations selon lesquelles le service utiliserait un robot d'exploration hébergé sur ses serveurs qui ignorerait le Robots Exclusion Protocol. Ce protocole est un standard du web dans lequel les développeurs créent un fichier robots.txt sur un domaine qui contient des instructions sur l'autorisation ou non des robots d'accéder à une page donnée. Le respect de ces instructions est facultatif, mais les robots d'exploration des entreprises sérieuses s'y conforment généralement depuis que les développeurs Web ont commencé à introduire cette norme dans les années 90.
Dans un article précédent, Wired a rapporté la découverte d'une machine virtuelle qui contournait les instructions robots.txt de son site web. Cette machine était hébergée sur un serveur Amazon Web Services avec l'adresse IP 44.221.181.252, qui "est probablement exploité par Perplexity". Selon les rapports, d'autres sites web de Condé Nast ont également été visités des centaines de fois au cours des trois derniers mois afin de scraper leur contenu. Selon Wired, The Guardian, Forbes et The New York Times ont également constaté que Perplexity avait visité leurs publications à plusieurs reprises. Pour vérifier si Perplexity lisait effectivement leurs contenus, Wired a saisi des titres ou de courtes descriptions de leurs articles dans le chatbot de l'entreprise. L'outil a répondu avec des résultats décrivant étroitement les articles de Wired "avec un minimum de citations".
Selon un récent rapport de Reuters, Perplexity n'est pas la seule entreprise d'IA à contourner les fichiers robots.txt pour collecter des contenus utilisés pour l'entraînement de grands modèles linguistiques. Il semble toutefois que Wired n'ait fourni à Amazon que des informations sur le crawler de Perplexity AI. "Les conditions de service d'AWS interdisent les activités abusives et illégales et nos clients sont responsables du respect de ces conditions", a déclaré Amazon Web Services dans une déclaration. "Nous recevons couramment des rapports d'abus présumés provenant d'une variété de sources et nous nous engageons avec nos clients pour comprendre ces rapports". Le porte-parole a ajouté que le département cloud de l'entreprise avait indiqué à Wired qu'il examinait les informations fournies par la publication, de la même manière qu'il examine tous les rapports de violations potentielles.
Sara Platnick, porte-parole de Perplexity, a expliqué à Wired que l'entreprise avait déjà répondu aux demandes d'Amazon et nié que ses robots d'exploration contournent le protocole d'exclusion des robots. "Notre PerplexityBot - qui fonctionne sur AWS - respecte robots.txt et nous avons confirmé que les services contrôlés par Perplexity n'explorent pas d'une manière qui enfreindrait les termes du service AWS", a-t-elle déclaré. Platnick nous a dit qu'Amazon n'avait examiné la demande des médias de Wired que dans le cadre d'un protocole standard d'enquête sur les rapports d'abus de ses ressources. L'entreprise n'avait apparemment pas entendu parler d'une enquête avant que Wired ne s'adresse à Amazon. Platnick a toutefois admis à Wired que PerplexityBot ignorait robots.text lorsqu'un utilisateur insérait une URL spécifique dans sa requête de chatbot.
Aravind Srinivas, le PDG de Perplexity, avait également nié auparavant que son entreprise "ignorait le protocole d'exclusion des robots et mentait ensuite à ce sujet". Srinivas a reconnu auprès de Fast Company que Perplexity utilisait, outre ses propres crawlers web, des crawlers web de tiers et que le bot identifié par Wired était l'un de ces crawlers web.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *