Einige der weltgrößten Technologieunternehmen haben ihre KI-Modelle auf einem Datensatz trainiert, der Transkripte von mehr als 173.000 YouTube-Videos enthält, und zwar ohne Genehmigung, wie eine neue Untersuchung von Proof News ergab. Der Datensatz, der von einem gemeinnützigen Unternehmen namens EleutherAI erstellt wurde, enthält Transkripte von YouTube-Videos von mehr als 48.000 Kanälen und wurde unter anderem von Apple, NVIDIA und Anthropic verwendet. Die Ergebnisse der Untersuchung verdeutlichen die unbequeme Wahrheit der KI: Die Technologie wird größtenteils auf der Grundlage von Daten entwickelt, die den Urhebern ohne deren Zustimmung oder Vergütung entzogen wurden.
Der Datensatz enthält keine Videos oder Bilder von YouTube, aber Videotranskripte von den größten Urhebern der Plattform, darunter Marques Brownlee und MrBeast, sowie von großen Nachrichtenverlagen wie der New York Times, der BBC und ABC News. Auch die Untertitel der Videos von Engadget sind Teil des Datensatzes.
„Apple hat Daten für seine KI von mehreren Unternehmen bezogen“, schrieb Brownlee auf X. ‚Eines von ihnen hat tonnenweise Daten/Transkripte von YouTube-Videos gesammelt, darunter auch meine‘, fügte er hinzu. „Dieses Problem wird sich noch lange Zeit weiterentwickeln.
Ein Google-Sprecher sagte gegenüber Engadget, dass frühere Kommentare von YouTube-CEO Neal Mohan, der sagte, dass Unternehmen, die YouTube-Daten zum Trainieren von KI-Modellen verwenden, gegen die Nutzungsbedingungen der Plattform verstoßen würden, nach wie vor Gültigkeit haben. Apple, NVIDIA, Anthropic und EleutherAI haben auf die Bitte von Engadget um einen Kommentar nicht reagiert.
Bislang waren die KI-Firmen in Bezug auf die Daten, die sie zum Trainieren ihrer Modelle verwenden, nicht sehr transparent. Anfang dieses Monats kritisierten Künstler und Fotografen Apple dafür, dass es die Quelle der Trainingsdaten für Apple Intelligence, die unternehmenseigene generative KI, die in diesem Jahr auf Millionen von Apple-Geräten zum Einsatz kommen soll, nicht offengelegt hat.
Apple erklärte jedoch am 17. Juli gegenüber 9to5Mac, dass sein OpenELM-Modell keine seiner KI- oder maschinellen Lernfunktionen, einschließlich Apple Intelligence, antreibt. Das Unternehmen erklärte vielmehr, dass das Modell nur zu Forschungszwecken erstellt wurde. Zuvor hatte Apple erklärt, dass seine Apple-Intelligence-Modelle auf „lizenzierten Daten, einschließlich Daten, die zur Verbesserung bestimmter Funktionen ausgewählt wurden, sowie auf öffentlich verfügbaren Daten, die von unserem Web-Crawler gesammelt wurden“, trainiert wurden, wie 9to5Mac feststellte.
Insbesondere YouTube, das weltweit größte Videoarchiv, ist eine wahre Fundgrube für Audio-, Video- und Bildmaterial sowie für Transkripte, was es zu einem attraktiven Datensatz für das Training von KI-Modellen macht. Anfang des Jahres wich Mira Murati, Chief Technology Officer von OpenAI, Fragen des Wall Street Journal aus, ob das Unternehmen YouTube-Videos zum Trainieren von Sora, OpenAIs kommendem Tool zur Erzeugung von KI-Videos, verwendet. „Ich werde nicht auf die Einzelheiten der verwendeten Daten eingehen, aber es handelte sich um öffentlich zugängliche oder lizenzierte Daten“, sagte Murati zu der Zeit. Sundar Pichai, CEO von Alphabet, hat ebenfalls gesagt, dass Unternehmen, die Daten von YouTube zum Trainieren ihrer KI-Modelle verwenden, gegen die Nutzungsbedingungen der Plattform verstoßen würden.