Les modèles d'IA qui utilisent le travail des humains sans leur consentement (ou leur rémunération) ne sont pas nouveaux. Des entreprises comme le New York Times et Getty Images, ainsi que des artistes et des écrivains, ont poursuivi des développeurs d'IA en justice. En mars, Mira Murati, directrice technique d'OpenAI, a contribué à l'incertitude persistante en déclarant au Wall Street Journal qu'elle n'était pas sûre que Sora, le nouvel outil d'IA texte-vidéo de l'entreprise, utilise des données provenant de publications YouTube, Instagram ou Facebook. Le CEO de YouTube, Neal Mohan, a alors réagi en avertissant clairement OpenAI que l'utilisation de ses vidéos pour l'entraînement de Sora constituerait une "violation claire" des conditions d'utilisation de la plateforme.
Lors d'une interview avec la présentatrice de Bloomberg Originals Emily Chang, Mohan a déclaré : "Lorsqu'un auteur télécharge son travail acharné sur notre plate-forme, il a certaines attentes. L'une de ces attentes est que les conditions d'utilisation soient respectées. Il n'est pas permis de télécharger des choses comme des transcriptions ou des extraits vidéo, et c'est une violation claire de nos conditions d'utilisation. Ce sont les règles du jeu pour les contenus sur notre plateforme".
La manière dont OpenAI entraîne Sora, ChatGPT et DALL-E est toujours controversée. Le Wall Street Journal a récemment rapporté que l'entreprise prévoit d'utiliser les transcriptions vidéo de YouTube pour l'entraînement de GPT-5. Le concurrent d'OpenAI, Google, semble en revanche s'en tenir aux règles - du moins lorsqu'il s'agit de YouTube (qui appartient à Google). Le modèle d'IA de Google, Gemini, a besoin de données similaires pour apprendre, mais Mohan affirme qu'il n'utilise que certaines vidéos, en fonction des autorisations accordées dans les contrats de licence de chaque auteur.