OpenAI hat eine Vorschau auf ein neues Tool namens Operator veröffentlicht, das in einem Webbrowser navigieren kann. Laut einem am Donnerstag veröffentlichten Blogeintrag wird die Software von einem sogenannten Computer-Using-Agent angetrieben. „CUA ist darauf trainiert, mit grafischen Benutzeroberflächen (GUIs) – den Schaltflächen, Menüs und Textfeldern, die Menschen auf einem Bildschirm sehen – genau wie Menschen zu interagieren“, erklärt OpenAI das Modell. „Dadurch ist es flexibel genug, um digitale Aufgaben ohne die Verwendung von betriebssystem- oder webspezifischen APIs auszuführen.“
Die aktuelle Version von Operator basiert auf dem GPT-4o-Modell von OpenAI. Sie kombiniert die visuellen Fähigkeiten dieses Algorithmus mit „fortgeschrittenem Denken“, das durch bestärkendes Lernen trainiert wird. Der Operator ist in der Lage, „Aufgaben in mehrstufige Pläne zu zerlegen und sich bei Herausforderungen selbst zu korrigieren“. Laut OpenAI stellt diese Fähigkeit die nächste Stufe in der Entwicklung der KI dar.
Wie schon in früheren Forschungsübersichten weist OpenAI darauf hin, dass Operator „noch in den Kinderschuhen steckt und Einschränkungen aufweist“ und „noch nicht in allen Szenarien zuverlässig funktioniert“. Abhängig von der Komplexität der Aufgabe und der involvierten Schnittstelle profitiert der Agent zum Beispiel stark davon, wenn sich der Benutzer ein paar Momente mehr Zeit nimmt, um eine detailliertere Eingabeaufforderung zu schreiben. Laut The Verge gibt Operator dem Benutzer die Kontrolle, wenn er bei einer Aufgabe nicht weiterkommt. Operator übernimmt auch die Kontrolle, wenn eine Website nach sensiblen Informationen fragt, einschließlich der Anmeldedaten. Das Unternehmen gibt an, das Tool so entwickelt zu haben, dass es „schädliche Anfragen ablehnt und unzulässige Inhalte blockiert“.
OpenAI stellt Operator zunächst den Nutzern seines ChatGPT Pro-Abonnements für 200 US-Dollar pro Monat zur Verfügung. Das Unternehmen arbeitet auch mit Firmen wie Instacart zusammen, um Operator auf deren Plattformen anzubieten. Allerdings benötigen Sie auch hier ein ChatGPT Pro-Abonnement, um die Integration zu testen.
Der Operator reiht sich in eine wachsende Liste von KI-Agenten ein, die entweder einen Webbrowser oder ein ganzes Betriebssystem navigieren können. Anthropic war das erste Unternehmen, das diese Fähigkeit mit der Veröffentlichung seines Modells Claude 3.5 Sonnet im Oktober anbot, gefolgt von Google mit seinem Modell Gemini 2.0 und Project Mariner.