Die generativen KI-Tools von Google erhalten einige der Neuerungen, die das Unternehmen auf der Google I/O angekündigt hat. Ab dieser Woche stellt das Unternehmen die nächste Version seines Bildgenerators Imagen vor, der (nach einer peinlichen Kontroverse Anfang des Jahres) wieder die Möglichkeit bietet, KI-Menschen zu erstellen. Googles Chatbot Gemini wird außerdem um Gems erweitert, die Version des Unternehmens für Bots mit benutzerdefinierten Anweisungen, ähnlich den benutzerdefinierten GPTs von ChatGPT.
Googles Imagen 3 ist die aktualisierte Version seines Bildgenerators, der in Gemini integriert ist. Das Unternehmen sagt, dass das KI-Modell der nächsten Generation „einen neuen Standard für die Bildqualität setzt“ und mit Leitplanken ausgestattet ist, um eine Überkorrektur für Diversität zu vermeiden, wie die bizarren historischen KI-Bilder, die Anfang des Jahres viral gingen.
„In einer Reihe von Benchmarks schneidet Imagen 3 im Vergleich zu anderen verfügbaren Bildverarbeitungsmodellen sehr gut ab“, schreibt Geminis Produktmanager Dave Citron in einer Pressemitteilung. Das Tool ermöglicht es, die Bilderzeugung mit zusätzlichen Eingabeaufforderungen zu steuern, wenn man mit dem Ergebnis nicht zufrieden ist.
Citron zufolge schneidet Imagen 3 im Vergleich zur Konkurrenz „gut ab“. Es enthält auch Googles SynthID-Tool, mit dem Bilder mit Wasserzeichen versehen werden können, um deutlich zu machen, dass es sich um KI-Bilder und nicht um echte Bilder handelt.
Citron sagt, dass die Möglichkeit, Personen zu generieren, in den nächsten Tagen für zahlende Nutzer zurückkehren wird, Monate nachdem Google die Funktion entfernt hat. Er sagt, dass neue Richtlinien die Erstellung von „fotorealistischen, identifizierbaren Individuen“ verhindern werden – weit entfernt von den problematischen Deepfakes, die von Elon Musks Grok erstellt werden. Auch Kinder und (wie bei anderen Bildgeneratoren) blutige, gewalttätige oder sexuelle Szenen sind tabu. Der Produktmanager dämpft die Erwartungen, indem er sagt, dass die Bilder von Gemini nicht perfekt sein werden, aber er verspricht, dass das Unternehmen weiterhin auf das Feedback der Nutzer hören und die Software entsprechend verbessern wird.
Ab dieser Woche wird Imagen 3 für alle Nutzer verfügbar sein, aber die Wiedereinführung von Bildern mit Personen wird mit den zahlenden Nutzern beginnen. Englischsprachige Nutzer von Gemini Advanced, Business und Enterprise können „in den nächsten Tagen“ mit der Wiedereinführung von Bildern mit Personen rechnen.
Gems, die erstmals auf der Google I/O 2024 vorgestellt wurden, sind Googles benutzerdefinierte Chatbots mit von Nutzern erstellten Anweisungen. Sie sind im Wesentlichen Geminis Antwort auf die GPTs von OpenAI, die Googles Konkurrent Ende letzten Jahres eingeführt hat. Gems wird in den nächsten Tagen online gehen.
„Mit Gems können Sie ein Expertenteam zusammenstellen, das Ihnen hilft, ein schwieriges Projekt zu durchdenken, Ideen für eine bevorstehende Veranstaltung zu sammeln oder die perfekte Überschrift für einen Beitrag in den sozialen Medien zu schreiben“, schreibt Citron. „Ihre Gems können sich auch detaillierte Anweisungen merken, um bei langwierigen, sich wiederholenden oder schwierigen Aufgaben Zeit zu sparen.“
Zusätzlich zu den benutzerdefinierten Gems wird Gemini auch vorgefertigte Gems enthalten, „um Ihnen den Einstieg zu erleichtern“ und Sie zu neuen Ideen zu inspirieren.
Vorgefertigte Gems beinhalten
- Lerncoach – um Ihnen zu helfen, komplexe Themen zu verstehen
- Brainstormer – zur Anregung neuer Ideen
- Karriereführer – hilft Ihnen, Ihre Fähigkeiten, Entscheidungen und Ziele zu verbessern
- Writing Editor – gibt konstruktives Feedback zu Grammatik, Ton und Struktur
- Coding Partner – verbessert die Programmierfähigkeiten von Entwicklern und inspiriert zu neuen Projekten.
Die Gems sind ab heute für Desktop und Mobile verfügbar. Sie sind jedoch nur für Gemini Advanced-, Business- und Enterprise-Abonnenten verfügbar, d. h. Sie benötigen ein kostenpflichtiges Abonnement, um sie auszuprobieren.