Googles neues KI-Tool Whisk verwendet Bilder als Eingabeaufforderung

Google hat ein weiteres KI-Tool zum Stack hinzugefügt. Whisk ist ein Bildgenerator von Google Labs, mit dem man ein vorhandenes Bild als Eingabeaufforderung verwenden kann. Die Ausgabe erfasst jedoch nur die „Essenz“ des Ausgangsbildes, anstatt es mit neuen Details neu zu erstellen. Es eignet sich daher besser für Brainstorming und schnelle Visualisierungen als für die Bearbeitung des Ausgangsbildes.

Die Firma beschreibt Whisk als „eine neue Art von kreativem Werkzeug“. Der Eingabebildschirm beginnt mit einer minimalistischen Benutzeroberfläche mit Eingabemöglichkeiten für Stil und Motiv. Diese einfache Eingabeschnittstelle erlaubt nur die Auswahl aus drei vordefinierten Stilen: Sticker, Emailleschild und Plüschtier. Ich vermute, dass Google diese drei Stile für die Art von groben Entwürfen ausgewählt hat, für die das experimentelle Tool in seiner jetzigen Form am besten geeignet ist.

Wie Sie auf dem Bild oben sehen können, hat es ein solides Bild eines Wilford-Brimley-Plüschtiers erzeugt. (Die Nutzungsbedingungen von Google verbieten Bilder von Prominenten, aber Wilford ist mit Quaker Oats im Schlepptau durch die Tore geschlüpft, ohne die Wachen zu alarmieren).

Whisk enthält auch einen erweiterten Editor (zu finden unter „Neu starten“ auf dem Hauptbildschirm). In diesem Modus können Sie Text oder ein Quellbild in drei Kategorien verwenden: Thema, Szene und Stil. Es gibt auch eine Eingabezeile, um zusätzlichen Text für den letzten Schliff hinzuzufügen. In der vorliegenden Form haben die erweiterten Steuerelemente jedoch nicht zu Ergebnissen geführt, die meinen Abfragen auch nur annähernd ähneln.

Sehen Sie sich zum Beispiel meinen Versuch an, den verstorbenen Mr. Brimley in einer Lightbox-Szene im Stil eines Walross-Plüschtiers zu generieren, das ich im Internet gefunden habe:

Whisk spuckt etwas aus, das aussieht wie ein Schauspieler, der Haferflocken isst und ein wenig an Wilford Brimley in einem Lightbox-Rahmen erinnert. Soweit ich das beurteilen kann, ist dieser Kerl kein Plüschtier. Es ist also klar, warum Google empfiehlt, das Tool eher für eine „schnelle visuelle Erkundung“ als für produktionsreife Inhalte zu verwenden.

Google räumt ein, dass Whisk nur „einige Schlüsselmerkmale“ des Quellbildes übernimmt. „Das generierte Motiv kann zum Beispiel eine andere Größe, ein anderes Gewicht, eine andere Frisur oder einen anderen Hautton haben“, warnt das Unternehmen.

Um zu verstehen, warum, genügt ein Blick auf Googles Beschreibung der Funktionsweise von Whisk. Das Tool verwendet das Gemini-Sprachmodell, um eine detaillierte Bildunterschrift für das hochgeladene Quellbild zu erstellen. Diese Beschreibung wird dann in den Bildgenerator von Imagen 3 eingegeben. Das Ergebnis ist also ein Bild, das auf Geminis Beschreibung des Bildes basiert – nicht auf dem Quellbild selbst.

Whisk ist derzeit nur in den USA verfügbar. Sie können es auf der Google Labs Website des Projekts ausprobieren.

Whisk, il nuovo strumento di intelligenza artificiale di Google, utilizza le immagini come spunto di riflessione

Lascia una rispostaCancella risposta

Articoli correlati

T-Mobile ist nun offiziell Eigentümer von UScellular.

Einige goo.gl-URLs werden weiterleben.

Apple ist „offen für“ Übernahmen, um seine KI-Roadmap voranzutreiben.

Lascia una rispostaCancella risposta

In tendenza ora