Dopo quasi due settimane di annunci, OpenAI ha concluso la serie di livestream "12 Days of OpenAI" con un'anteprima del suo modello di prossima generazione. "Per rispetto ai nostri amici di Telefónica (proprietari della rete mobile O2 in Europa) e nella grande tradizione che OpenAI è molto, molto negativa nel ricordare i nomi, è o3", ha detto Sam Altman, CEO di OpenAI, agli spettatori dell'annuncio su YouTube.
Il nuovo modello non è ancora pronto per l'uso pubblico. Al contrario, OpenAI sta inizialmente mettendo o3 a disposizione dei ricercatori che hanno bisogno di aiuto per i test di sicurezza. OpenAI ha anche annunciato l'esistenza di o3-mini. Altman ha dichiarato che l'azienda prevede di lanciare questo modello "verso la fine di gennaio" e che o3 seguirà "poco dopo".
Come ci si aspetterebbe, l'o3 offre prestazioni migliori rispetto al suo predecessore, ma la caratteristica principale è il grado di miglioramento rispetto all'o1. Nell'American Invitational Mathematics Examination di quest'anno, ad esempio, l'o3 ha ottenuto un punteggio di precisione del 96,7%. In confronto, l'o1 ha ottenuto un punteggio più modesto, pari all'83,3%. "Questo significa che o3 spesso sbaglia una sola domanda", afferma Mark Chen, vicepresidente senior della ricerca di OpenAI. In effetti, o3 ha ottenuto risultati così buoni nei consueti benchmark che OpenAI esegue sui suoi modelli, che l'azienda ha dovuto trovare test più sofisticati con cui misurarlo.
Uno di questi è ARC-AGI, un test di riferimento che verifica la capacità di un algoritmo di intelligenza artificiale di comprendere intuitivamente e apprendere istantaneamente. Secondo l'inventore del test, l'organizzazione no-profit ARC Prize, un sistema di IA che riesca a battere ARC-AGI sarebbe "un'importante pietra miliare sulla strada dell'intelligenza artificiale generale". Dalla sua introduzione nel 2019, nessun modello di intelligenza artificiale ha ancora battuto l'ARC-AGI. Il test consiste in domande di input-output che la maggior parte delle persone può risolvere in modo intuitivo. Nell'esempio precedente, ad esempio, la risposta corretta sarebbe quella di formare dei quadrati dai quattro poliomino con blocchi blu scuro.
Con l'impostazione a bassa potenza di calcolo, o3 ha raggiunto il 75,7% nel test. Con una maggiore potenza di calcolo, il modello ha raggiunto l'87,5%. "Le prestazioni umane sono paragonabili a una soglia dell'85%, quindi il superamento di questa soglia è un grande traguardo", ha dichiarato Greg Kamradt, presidente della ARC Prize Foundation.
OpenAI ha presentato anche o3-mini. Il nuovo modello utilizza l'API Adaptive Thinking Time recentemente annunciata da OpenAI per offrire tre diverse modalità di ragionamento: Bassa, Media e Alta. In pratica, questo significa che l'utente può impostare quanto tempo il software deve "pensare" a un problema prima di fornire una risposta. Come si può vedere nel grafico qui sopra, o3-mini può ottenere risultati paragonabili all'attuale modello di ragionamento o1 di OpenAI, ma a una frazione del costo computazionale. Come già detto, o3-mini sarà disponibile al pubblico prima di o3.