Das O3-Modell der nächsten Generation von OpenAI wird Anfang nächsten Jahres verfügbar sein.

Nach fast zwei Wochen voller Ankündigungen hat OpenAI seine Livestream-Serie „12 Days of OpenAI“ mit einer Vorschau auf sein Next-Generation-Modell abgeschlossen. „Aus Respekt vor unseren Freunden bei Telefónica (Eigentümer des O2-Mobilfunknetzes in Europa) und in der großen Tradition, dass OpenAI sehr, sehr schlecht darin ist, sich Namen zu merken, heißt es o3“, sagte Sam Altman, CEO von OpenAI, den Zuschauern der Ankündigung auf YouTube.

Das neue Modell ist noch nicht bereit für den öffentlichen Einsatz. Stattdessen stellt OpenAI o3 zunächst Forschern zur Verfügung, die Hilfe bei Sicherheitstests benötigen. OpenAI kündigte auch die Existenz von o3-mini an. Altman sagte, das Unternehmen plane, dieses Modell „gegen Ende Januar“ auf den Markt zu bringen, und o3 werde „kurz danach“ folgen.

Wie zu erwarten, bietet der o3 eine bessere Leistung als sein Vorgänger, aber wie viel besser er im Vergleich zum o1 ist, ist hier das Hauptmerkmal. Bei der diesjährigen American Invitational Mathematics Examination erreichte o3 beispielsweise einen Genauigkeitswert von 96,7 Prozent. Im Vergleich dazu erreichte o1 einen bescheideneren Wert von 83,3 Prozent. „Das bedeutet, dass o3 oft nur eine Frage falsch beantwortet“, sagt Mark Chen, Senior Vice President of Research bei OpenAI. Tatsächlich schnitt o3 bei den üblichen Benchmarks, die OpenAI mit seinen Modellen durchführt, so gut ab, dass das Unternehmen anspruchsvollere Tests finden musste, um es daran zu messen.

Einer davon ist ARC-AGI, ein Benchmark, der die Fähigkeit eines KI-Algorithmus testet, intuitiv zu verstehen und sofort zu lernen. Laut dem Erfinder des Tests, der gemeinnützigen Organisation ARC Prize, wäre ein KI-System, das ARC-AGI erfolgreich schlägt, „ein wichtiger Meilenstein auf dem Weg zur künstlichen allgemeinen Intelligenz“. Seit seiner Einführung im Jahr 2019 hat noch kein KI-Modell den ARC-AGI geschlagen. Der Test besteht aus Input-Output-Fragen, die die meisten Menschen intuitiv lösen können. Im obigen Beispiel wäre beispielsweise die richtige Antwort, aus den vier Polyominos mit dunkelblauen Blöcken Quadrate zu bilden.

Mit der Einstellung für geringe Rechenleistung erreichte o3 im Test 75,7 Prozent. Mit zusätzlicher Rechenleistung kam das Modell auf 87,5 Prozent. „Die menschliche Leistung ist vergleichbar mit einer Schwelle von 85 Prozent, so dass es ein großer Meilenstein ist, diese Schwelle zu überschreiten“, sagte Greg Kamradt, Präsident der ARC Prize Foundation.

OpenAI stellte auch o3-mini vor. Das neue Modell nutzt die kürzlich von OpenAI angekündigte Adaptive Thinking Time API, um drei verschiedene Argumentationsmodi anzubieten: Low, Medium und High. In der Praxis bedeutet dies, dass der Benutzer einstellen kann, wie lange die Software über ein Problem „nachdenken“ soll, bevor sie eine Antwort liefert. Wie in der obigen Grafik zu sehen ist, kann o3-mini Ergebnisse erzielen, die mit dem aktuellen o1-Argumentationsmodell von OpenAI vergleichbar sind, jedoch zu einem Bruchteil der Rechenkosten. Wie bereits erwähnt, wird o3-mini der Öffentlichkeit vor o3 zur Verfügung stehen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert