Comparé à d'autres modèles sans utilisation d'outils, il atteint des performances de pointe dans les domaines suivants :
🔘 LiveCodeBench V6, qui évalue la performance du code concurrent
🔘 Le Dernier Examen de l'Humanité, un repère difficile qui mesure l'expertise d'un modèle dans différents domaines, y compris la science.
Voir l'original