Certaines des plus grandes entreprises technologiques du monde ont entraîné leurs modèles d'IA sur un ensemble de données contenant des transcriptions de plus de 173.000 vidéos YouTube, et ce sans autorisation, selon une nouvelle enquête de Proof News. Le jeu de données, créé par une entreprise à but non lucratif appelée EleutherAI, contient des transcriptions de vidéos YouTube de plus de 48.000 chaînes et a été utilisé entre autres par Apple, NVIDIA et Anthropic. Les résultats de l'enquête mettent en évidence la vérité dérangeante de l'IA : la technologie est en grande partie développée sur la base de données retirées à leurs auteurs sans leur consentement ou leur rémunération.
L'ensemble de données ne contient pas de vidéos ou d'images de YouTube, mais des transcriptions vidéo des principaux créateurs de la plate-forme, dont Marques Brownlee et MrBeast, ainsi que de grands éditeurs d'informations tels que le New York Times, la BBC et ABC News. Les sous-titres des vidéos d'Engadget font également partie de l'ensemble de données.
"Apple a obtenu des données pour son IA de plusieurs entreprises", a écrit Brownlee sur X. 'L'une d'entre elles a collecté des tonnes de données/transcriptions de vidéos YouTube, y compris les miennes', a-t-il ajouté. "Ce problème va continuer à se développer pendant longtemps.
Un porte-parole de Google a déclaré à Engadget que les commentaires précédents du PDG de YouTube, Neal Mohan, qui a déclaré que les entreprises utilisant les données YouTube pour entraîner des modèles d'IA violeraient les conditions d'utilisation de la plate-forme, sont toujours valables. Apple, NVIDIA, Anthropic et EleutherAI n'ont pas répondu à la demande de commentaires d'Engadget.
Jusqu'à présent, les entreprises d'IA n'ont pas été très transparentes en ce qui concerne les données qu'elles utilisent pour entraîner leurs modèles. Au début du mois, des artistes et des photographes ont critiqué Apple pour ne pas avoir révélé la source des données d'entraînement pour Apple Intelligence, l'IA générative de l'entreprise qui sera utilisée cette année sur des millions d'appareils Apple.
Cependant, Apple a déclaré le 17 juillet à 9to5Mac que son modèle OpenELM n'alimentait aucune de ses fonctions d'intelligence artificielle ou d'apprentissage automatique, y compris Apple Intelligence. L'entreprise a plutôt expliqué que le modèle avait été créé uniquement à des fins de recherche. Auparavant, Apple avait déclaré que ses modèles Apple Intelligence avaient été entraînés sur "des données sous licence, y compris des données sélectionnées pour améliorer certaines fonctionnalités, ainsi que sur des données disponibles publiquement collectées par notre crawler web", comme l'a noté 9to5Mac.
YouTube, en particulier, la plus grande archive vidéo du monde, est une véritable mine d'or pour l'audio, la vidéo, les images et les transcriptions, ce qui en fait un ensemble de données intéressant pour l'entraînement de modèles d'IA. Au début de l'année, Mira Murati, directrice technologique d'OpenAI, a éludé les questions du Wall Street Journal concernant l'utilisation par l'entreprise de vidéos YouTube pour l'entraînement de Sora, le prochain outil de génération de vidéos d'IA d'OpenAI. "Je n'entrerai pas dans les détails des données utilisées, mais il s'agissait de données publiques ou sous licence", a déclaré Murati à l'époque. Sundar Pichai, PDG d'Alphabet, a également déclaré que les entreprises qui utilisent les données de YouTube pour entraîner leurs modèles d'IA enfreignent les conditions d'utilisation de la plateforme.