I modelli di intelligenza artificiale che utilizzano il lavoro delle persone senza il loro consenso (o compenso) non sono una novità. Aziende come il New York Times e Getty Images, così come artisti e scrittori, hanno fatto causa agli sviluppatori di IA. A marzo, Mira Murati, CTO di OpenAI, ha aggiunto un ulteriore elemento di incertezza dichiarando al Wall Street Journal di non essere sicura che Sora, il nuovo strumento di intelligenza artificiale da testo a video dell'azienda, utilizzasse dati provenienti da YouTube, Instagram o Facebook. Neal Mohan, amministratore delegato di YouTube, ha risposto con un severo avvertimento a OpenAI: l'utilizzo dei loro video per addestrare Sora sarebbe una "chiara violazione" dei termini di servizio della piattaforma.
In un'intervista con Emily Chang, presentatrice di Bloomberg Originals, Mohan ha dichiarato: "Quando un autore carica il proprio lavoro sulla nostra piattaforma, ha determinate aspettative. Una di queste aspettative è quella di rispettare i termini di servizio. Non è consentito caricare cose come trascrizioni o estratti video, e questa è una chiara violazione dei nostri termini di servizio. Queste sono le regole del gioco per i contenuti sulla nostra piattaforma".
Il modo in cui OpenAI addestra Sora, ChatGPT e DALL-E è ancora controverso. Il Wall Street Journal ha recentemente riportato che l'azienda ha intenzione di utilizzare le trascrizioni dei video di YouTube per addestrare GPT-5. Il concorrente di OpenAI, Google, sembra invece rispettare le regole, almeno per quanto riguarda YouTube (che è di proprietà di Google). Il modello Gemini AI di Google richiede dati simili per l'apprendimento, ma Mohan sostiene che utilizza solo determinati video, a seconda delle autorizzazioni concesse nel contratto di licenza di ciascun autore.