Fugatto, le nouveau modèle d'IA de NVIDIA, peut générer de l'audio à partir d'annonces textuelles

NVIDIA a présenté un nouveau modèle expérimental d'IA générative, décrit comme un "couteau suisse du son". Le modèle, appelé Foundational Generative Audio Transformer Opus 1 ou Fugatto, peut recevoir des commandes à partir d'annonces textuelles et les utiliser pour créer de l'audio ou modifier des fichiers musicaux, vocaux et sonores existants. Il a été développé par une équipe de chercheurs en IA du monde entier et, selon NVIDIA, "les capacités du modèle à traiter plusieurs accents et langues ont été améliorées".

"Nous voulions créer un modèle qui comprenne et génère des sons de la même manière que les humains le font", a déclaré Rafael Valle, l'un des chercheurs derrière le projet et responsable de la recherche audio appliquée chez NVIDIA. Dans son annonce, la société a cité quelques scénarios possibles du monde réel dans lesquels Fugatto pourrait être utile. Les producteurs de musique pourraient utiliser la technologie pour créer rapidement un prototype d'une idée de chanson, qu'ils pourraient ensuite facilement modifier pour essayer différents styles, voix et instruments.

Les gens pourraient l'utiliser pour créer du matériel pour des outils d'apprentissage vocal dans la voix de leur choix. Et les développeurs de jeux vidéo pourraient s'en servir pour créer des variations d'actifs préenregistrés qui s'adaptent aux changements dans le jeu, en fonction des décisions et des actions des joueurs. Les chercheurs ont également constaté qu'avec un peu de réglage fin, le modèle peut accomplir des tâches qui ne font pas partie de son préentraînement. Il peut combiner des instructions pour lesquelles il a été entraîné séparément, comme par exemple produire un langage colérique avec un accent particulier ou produire des gazouillis d'oiseaux pendant un orage. Le modèle peut également produire des sons qui changent avec le temps, comme le grondement d'un orage qui traverse le pays.

NVIDIA n'a pas encore annoncé si Fugatto serait mis à la disposition du public, mais ce modèle n'est pas la première technologie d'IA générative capable de générer des sons à partir de commandes textuelles. Meta a déjà publié un kit d'IA open source capable de générer des sons à partir de descriptions textuelles. Google dispose de sa propre IA texte-musique, MusicLM, qui est accessible via le site web AI Test Kitchen de l'entreprise.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *