NVIDIAs neues KI-Modell Fugatto kann aus Textansagen Audio erzeugen

NVIDIA hat ein neues experimentelles generatives KI-Modell vorgestellt, das als „Schweizer Taschenmesser für Sound“ beschrieben wird. Das Modell mit dem Namen Foundational Generative Audio Transformer Opus 1 oder Fugatto kann Befehle aus Textansagen entgegennehmen und diese verwenden, um Audio zu erstellen oder vorhandene Musik-, Sprach- und Sounddateien zu verändern. Es wurde von einem Team von KI-Forschern aus der ganzen Welt entwickelt und NVIDIA zufolge wurden „die Fähigkeiten des Modells zur Verarbeitung mehrerer Akzente und Sprachen verbessert“.

„Wir wollten ein Modell schaffen, das Klänge so versteht und erzeugt, wie Menschen es tun“, sagte Rafael Valle, einer der Forscher hinter dem Projekt und Leiter der angewandten Audioforschung bei NVIDIA. In seiner Ankündigung nannte das Unternehmen einige mögliche Szenarien aus der realen Welt, in denen Fugatto nützlich sein könnte. Musikproduzenten könnten die Technologie nutzen, um schnell einen Prototyp einer Songidee zu erstellen, den sie dann leicht bearbeiten können, um verschiedene Stile, Stimmen und Instrumente auszuprobieren.

Menschen könnten damit Material für Sprachlernwerkzeuge in der Stimme ihrer Wahl erstellen. Und Videospielentwickler könnten damit Variationen von voraufgezeichneten Assets erstellen, die sich an Änderungen im Spiel anpassen, die auf den Entscheidungen und Aktionen der Spieler basieren. Die Forscher stellten außerdem fest, dass das Modell mit ein wenig Feintuning auch Aufgaben bewältigen kann, die nicht Teil seines Vortrainings sind. Es kann Anweisungen kombinieren, auf die es separat trainiert wurde, wie z.B. das Erzeugen von wütender Sprache mit einem bestimmten Akzent oder das Erzeugen von Vogelgezwitscher während eines Gewitters. Das Modell kann auch Geräusche erzeugen, die sich mit der Zeit verändern, wie das Donnern eines Gewitters, das über das Land zieht.

NVIDIA hat noch nicht bekannt gegeben, ob Fugatto der Öffentlichkeit zugänglich gemacht wird, aber das Modell ist nicht die erste generative KI-Technologie, die aus Textbefehlen Klänge erzeugen kann. Meta hat bereits ein Open-Source-KI-Kit veröffentlicht, das Klänge aus Textbeschreibungen erzeugen kann. Google verfügt über eine eigene Text-Musik-KI namens MusicLM, die über die Website AI Test Kitchen des Unternehmens zugänglich ist.

Ähnliche Beiträge

T-Mobile ist nun offiziell Eigentümer von UScellular.

Einige goo.gl-URLs werden weiterleben.

Apple ist „offen für“ Übernahmen, um seine KI-Roadmap voranzutreiben.

Schreibe einen KommentarAntworten abbrechen

Im Trend