Fugatto, il nuovo modello di intelligenza artificiale di NVIDIA, è in grado di generare audio da annunci di testo

NVIDIA ha presentato un nuovo modello sperimentale di intelligenza artificiale generativa descritto come un "coltellino svizzero per il suono". Il modello, chiamato Foundational Generative Audio Transformer Opus 1 o Fugatto, è in grado di ricevere comandi da messaggi di testo e di utilizzarli per creare audio o modificare file musicali, vocali e sonori esistenti. È stato sviluppato da un team di ricercatori di intelligenza artificiale provenienti da tutto il mondo e, secondo NVIDIA, "la capacità del modello di elaborare più accenti e lingue è stata migliorata".

"Volevamo creare un modello che comprendesse e creasse i suoni come fanno gli esseri umani", ha dichiarato Rafael Valle, uno dei ricercatori dietro al progetto e responsabile della ricerca audio applicata di NVIDIA. Nel suo annuncio, l'azienda ha menzionato alcuni possibili scenari del mondo reale in cui Fugatto potrebbe essere utile. I produttori musicali potrebbero usare la tecnologia per creare rapidamente un prototipo di un'idea di canzone, che possono poi modificare facilmente per provare stili, voci e strumenti diversi.

Le persone potrebbero usarlo per creare materiale per strumenti di apprendimento linguistico con la voce che preferiscono. E gli sviluppatori di videogiochi potrebbero usarlo per creare variazioni di risorse preregistrate che si adattano ai cambiamenti del gioco in base alle decisioni e alle azioni dei giocatori. I ricercatori hanno anche scoperto che, con una piccola messa a punto, il modello è in grado di gestire compiti che non fanno parte del suo pre-addestramento. Può combinare istruzioni su cui è stato addestrato separatamente, come produrre un discorso arrabbiato con un accento particolare o produrre il canto degli uccelli durante un temporale. Il modello può anche produrre suoni che cambiano nel tempo, come il rombo di un temporale che passa sulla terra.

NVIDIA non ha ancora annunciato se Fugatto sarà reso disponibile al pubblico, ma il modello non è la prima tecnologia di IA generativa in grado di generare suoni da comandi testuali. Meta ha già rilasciato un kit di intelligenza artificiale open-source in grado di generare suoni da descrizioni testuali. Google ha una propria AI in grado di generare suoni a partire da descrizioni testuali, chiamata MusicLM, accessibile tramite il sito web AI Test Kitchen dell'azienda.

Articoli correlati

T-Mobile ist nun offiziell Eigentümer von UScellular.

Einige goo.gl-URLs werden weiterleben.

Apple ist „offen für“ Übernahmen, um seine KI-Roadmap voranzutreiben.

Lascia una rispostaCancella risposta

In tendenza ora