Le modèle O3 de la prochaine génération d'OpenAI sera disponible au début de l'année prochaine.

Après presque deux semaines d'annonces, OpenAI a conclu sa série de livestreams "12 Days of OpenAI" avec un aperçu de son modèle de nouvelle génération. "Par respect pour nos amis de Telefónica (propriétaire du réseau mobile O2 en Europe) et dans la grande tradition qui veut qu'OpenAI soit très, très mauvais pour se souvenir des noms, c'est o3", a déclaré Sam Altman, CEO d'OpenAI, aux spectateurs de l'annonce sur YouTube.

Le nouveau modèle n'est pas encore prêt pour une utilisation publique. Au lieu de cela, OpenAI met d'abord o3 à la disposition des chercheurs qui ont besoin d'aide pour les tests de sécurité. OpenAI a également annoncé l'existence de o3-mini. Altman a déclaré que la société prévoyait de lancer ce modèle "vers la fin janvier" et que o3 suivrait "peu après".

Comme on pouvait s'y attendre, l'o3 offre de meilleures performances que son prédécesseur, mais à quel point il est meilleur que l'o1 est la caractéristique principale ici. Par exemple, lors de l'American Invitational Mathematics Examination de cette année, l'o3 a obtenu une valeur de précision de 96,7 pour cent. En comparaison, o1 a obtenu une valeur plus modeste de 83,3 pour cent. "Cela signifie que o3 ne répond souvent qu'à une seule question de manière incorrecte", explique Mark Chen, vice-président senior de la recherche chez OpenAI. En fait, o3 a obtenu de si bons résultats dans les benchmarks habituels qu'OpenAI effectue avec ses modèles que l'entreprise a dû trouver des tests plus exigeants pour l'y mesurer.

L'un d'entre eux est ARC-AGI, un benchmark qui teste la capacité d'un algorithme d'IA à comprendre intuitivement et à apprendre instantanément. Selon l'inventeur du test, l'organisation à but non lucratif ARC Prize, un système d'IA qui battrait ARC-AGI avec succès "constituerait un jalon important sur la voie de l'intelligence artificielle générale". Depuis son lancement en 2019, aucun modèle d'IA n'a encore battu l'ARC-AGI. Le test consiste en des questions d'entrée-sortie que la plupart des gens peuvent résoudre intuitivement. Dans l'exemple ci-dessus, par exemple, la bonne réponse serait de former des carrés à partir des quatre polyominos avec des blocs bleu foncé.

Avec le réglage pour une faible puissance de calcul, o3 a atteint 75,7 pour cent lors du test. Avec une puissance de calcul supplémentaire, le modèle a atteint 87,5 pour cent. "Les performances humaines sont comparables à un seuil de 85 pour cent, c'est donc une grande étape de franchir ce seuil", a déclaré Greg Kamradt, président de la ARC Prize Foundation.

OpenAI a également présenté o3-mini. Ce nouveau modèle utilise l'API Adaptive Thinking Time récemment annoncée par OpenAI pour proposer trois modes de raisonnement différents : Low, Medium et High. Dans la pratique, cela signifie que l'utilisateur peut définir le temps pendant lequel le logiciel doit "réfléchir" à un problème avant de fournir une réponse. Comme le montre le graphique ci-dessus, o3-mini peut produire des résultats comparables à l'actuel modèle de raisonnement o1 d'OpenAI, mais pour une fraction des coûts de calcul. Comme mentionné précédemment, o3-mini sera mis à la disposition du public avant o3.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *