Amazon untersucht angeblich Perplexity AI nach Vorwürfen des unbefugten Auslesens von Websites

Amazon Web Services hat eine Untersuchung eingeleitet, um festzustellen, ob Perplexity AI gegen seine Regeln verstößt, berichtet Wired. Konkret gehe die Cloud-Abteilung des Unternehmens Vorwürfen nach, wonach der Dienst einen auf seinen Servern gehosteten Crawler einsetze, der das Robots Exclusion Protocol ignoriere. Bei diesem Protokoll handelt es sich um einen Webstandard, bei dem Entwickler eine robots.txt-Datei auf einer Domain erstellen, die Anweisungen darüber enthält, ob Bots auf eine bestimmte Seite zugreifen dürfen oder nicht. Die Einhaltung dieser Anweisungen ist freiwillig, aber die Crawler seriöser Unternehmen halten sich im Allgemeinen daran, seit die Webentwickler in den 90er Jahren damit begonnen haben, diesen Standard einzuführen.
In einem früheren Artikel berichtete Wired über die Entdeckung einer virtuellen Maschine, die die robots.txt-Anweisungen ihrer Website umging. Diese Maschine wurde auf einem Amazon Web Services-Server mit der IP-Adresse 44.221.181.252 gehostet, der “wahrscheinlich von Perplexity betrieben wird”. Berichten zufolge wurden in den letzten drei Monaten auch andere Websites von Condé Nast hunderte Male besucht, um deren Inhalte zu scrapen. The Guardian, Forbes und The New York Times haben laut Wired ebenfalls festgestellt, dass Perplexity ihre Publikationen mehrmals besucht hat. Um zu überprüfen, ob Perplexity tatsächlich ihre Inhalte liest, gab Wired Ãœberschriften oder kurze Beschreibungen ihrer Artikel in den Chatbot des Unternehmens ein. Das Tool antwortete mit Ergebnissen, die die Artikel von Wired “mit minimaler Namensnennung” eng beschrieben.
Einem kürzlich erschienenen Reuters-Bericht zufolge ist Perplexity nicht das einzige KI-Unternehmen, das robots.txt-Dateien umgeht, um Inhalte zu sammeln, die zum Training großer Sprachmodelle verwendet werden. Es scheint jedoch, dass Wired Amazon nur Informationen über den Crawler von Perplexity AI zur Verfügung gestellt hat. “Die AWS Servicebedingungen verbieten missbräuchliche und illegale Aktivitäten und unsere Kunden sind für die Einhaltung dieser Bedingungen verantwortlich”, hieß es in einer Stellungnahme von Amazon Web Services. “Wir erhalten routinemäßig Berichte über angeblichen Missbrauch aus einer Vielzahl von Quellen und setzen uns mit unseren Kunden zusammen, um diese Berichte zu verstehen.” Der Sprecher fügte hinzu, dass die Cloud-Abteilung des Unternehmens Wired mitgeteilt habe, dass sie die von der Publikation bereitgestellten Informationen untersuche, so wie sie alle Berichte über mögliche Verstöße untersuche.
Sara Platnick, Sprecherin von Perplexity, erklärte gegenüber Wired, dass das Unternehmen bereits auf Anfragen von Amazon geantwortet und bestritten habe, dass seine Crawler das Robots Exclusion Protocol umgehen. “Unser PerplexityBot – der auf AWS läuft – respektiert robots.txt und wir haben bestätigt, dass die von Perplexity kontrollierten Dienste nicht in einer Weise crawlen, die gegen die AWS Terms of Service verstößt”, sagte sie. Platnick sagte uns, dass Amazon die Medienanfrage von Wired nur als Teil eines Standardprotokolls zur Untersuchung von Berichten über den Missbrauch seiner Ressourcen untersucht habe. Das Unternehmen habe offenbar nichts von einer Untersuchung gehört, bevor Wired sich an Amazon gewandt habe. Platnick gab gegenüber Wired jedoch zu, dass PerplexityBot robots.text ignoriert, wenn ein Nutzer eine bestimmte URL in seine Chatbot-Anfrage einfügt.
Aravind Srinivas, der CEO von Perplexity, hatte zuvor ebenfalls bestritten, dass sein Unternehmen “das Robot Exclusions Protocol ignoriert und dann darüber lügt”. Gegenüber Fast Company räumte Srinivas ein, dass Perplexity neben seinen eigenen Webcrawlern auch Webcrawler von Drittanbietern einsetze und dass der von Wired identifizierte Bot einer dieser Webcrawler sei.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *