Apple, NVIDIA e Anthropic avrebbero utilizzato trascrizioni di YouTube per addestrare modelli di intelligenza artificiale senza autorizzazione

Alcune delle più grandi aziende tecnologiche del mondo hanno addestrato i loro modelli di intelligenza artificiale su un set di dati contenente le trascrizioni di oltre 173.000 video di YouTube, senza autorizzazione, come ha scoperto una nuova indagine di Proof News. Il set di dati, creato da una società senza scopo di lucro chiamata EleutherAI, contiene trascrizioni di video di YouTube provenienti da oltre 48.000 canali ed è stato utilizzato, tra gli altri, da Apple, NVIDIA e Anthropic. I risultati della ricerca evidenziano la scomoda verità dell'IA: la tecnologia è in gran parte sviluppata sulla base di dati sottratti ai creatori senza il loro consenso o compenso.

Il set di dati non include video o immagini da YouTube, ma comprende le trascrizioni dei video dei maggiori creatori della piattaforma, tra cui Marques Brownlee e MrBeast, e dei principali editori di notizie come New York Times, BBC e ABC News. Anche i sottotitoli dei video di Engadget fanno parte del set di dati.

"Apple ha ottenuto dati per la sua intelligenza artificiale da diverse aziende", ha scritto Brownlee su X. Una di queste ha raccolto tonnellate di dati/trascrizioni da video di YouTube, compresi i miei", ha aggiunto. "Questo problema continuerà a evolversi per molto tempo.

Un portavoce di Google ha dichiarato a Engadget che i precedenti commenti del CEO di YouTube Neal Mohan, che aveva affermato che le aziende che utilizzano i dati di YouTube per addestrare i modelli di intelligenza artificiale violerebbero i termini di servizio della piattaforma, sono ancora validi. Apple, NVIDIA, Anthropic ed EleutherAI non hanno risposto alla richiesta di commento di Engadget.

Finora le aziende di IA non sono state molto trasparenti sui dati che utilizzano per addestrare i loro modelli. All'inizio di questo mese, artisti e fotografi hanno criticato Apple per non aver rivelato la fonte dei dati di addestramento di Apple Intelligence, l'IA generativa dell'azienda che sarà utilizzata su milioni di dispositivi Apple quest'anno.

Tuttavia, il 17 luglio Apple ha dichiarato a 9to5Mac che il modello OpenELM non alimenta nessuna delle sue funzioni di intelligenza artificiale o di apprendimento automatico, compresa Apple Intelligence. L'azienda ha spiegato che il modello è stato creato solo per scopi di ricerca. In precedenza, Apple aveva dichiarato che i suoi modelli di Apple Intelligence erano stati addestrati su "dati concessi in licenza, compresi i dati selezionati per migliorare alcune funzioni, nonché i dati pubblicamente disponibili raccolti dal nostro web crawler", come ha osservato 9to5Mac.

In particolare, YouTube, il più grande archivio di video al mondo, è un tesoro di audio, video, immagini e trascrizioni che lo rendono un set di dati interessante per l'addestramento di modelli di intelligenza artificiale. All'inizio di quest'anno, Mira Murati, Chief Technology Officer di OpenAI, ha evitato di rispondere alle domande del Wall Street Journal, che chiedeva se l'azienda stesse usando i video di YouTube per addestrare Sora, l'imminente strumento di generazione di video AI di OpenAI. "Non entrerò nello specifico dei dati utilizzati, ma si tratta di dati disponibili pubblicamente o concessi in licenza", ha dichiarato Murati all'epoca. Anche Sundar Pichai, CEO di Alphabet, ha dichiarato che le aziende che utilizzano i dati di YouTube per addestrare i propri modelli di IA violano i termini di servizio della piattaforma.

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *