OpenAIが2024年12月に発表したAIモデル「o3」が、社内で主張していたFrontierMath正答率25%超という数値に対し、第三者機関Epoch AIの独自ベンチマークではわずか10%前後のスコアしか示さなかった。この乖離は、OpenAIが使用したテスト環境や計算資源の規模、さらには評価対象の問題セットの差異に起因する可能性が指摘されている。
加えて、公開版のo3は社内テストとは異なる軽量モデルであるとする見解も示された。過去にはMetaやxAIなどでも類似の事例が報告されており、AI各社によるベンチマーク結果の信頼性が再び問われている。モデル性能の透明性と比較可能性を担保する制度設計が、業界全体にとって急務となる兆しが浮かび上がった。
o3の性能評価を巡る食い違いと、検証環境の相違がもたらした混乱

OpenAIが2024年12月に発表したAIモデル「o3」について、社内テストで提示されたFrontierMath正答率25%超という数値と、Epoch AIが実施した独自ベンチマークによる約10%という結果の大幅な差異が波紋を広げている。OpenAI側は当初、強力な計算資源を投入した実験的な条件下で達成されたスコアであることを説明していたが、実際に一般公開されたモデルではより軽量な構成が採用されていた。
Epoch AIはこの違いについて、評価対象のFrontierMathの問題セットのバージョンやスキャフォールドの利用有無など、実施条件の不一致が原因である可能性を指摘している。加えて、ARC Prize Foundationも、同モデルがベンチマーク時とは異なるプロダクト用チューニング版であるとの見解を示しており、同様の意見がOpenAI技術チームからも発信されている。
このような評価環境のばらつきが明らかになることで、AIモデルの性能を巡る透明性や一貫性への信頼が揺らいでいるのは否めない。特にAI分野では、ベンチマークスコアが技術的信頼や市場競争力を左右する重要な指標として扱われるが、それが一部の限られた設定でしか発揮されない場合、利用者や投資家に誤認を与えるおそれがある。今後、各モデルのベンチマークにおける評価基準や条件開示の厳格化が求められる状況にあるといえるだろう。
AI業界で加速するベンチマーク論争と、性能主張の信頼性への疑義
今回のo3を巡る評価の相違は、AI業界全体における「ベンチマーク論争」の一環として捉えることができる。近年、xAIがGrok 3の誇張されたスコアを公表したと批判された事例や、Metaが開発者向けに公開したモデルと異なるバージョンでの測定結果を利用していたことを認めた事例などが相次いでおり、モデル性能の評価方法に対する不信感が広がっている。
OpenAIも過去に、FrontierMathを開発するEpochへの資金提供をo3発表後まで公表していなかったことで、評価の中立性に疑問を招いた。こうした経緯は、業界における客観性の確保と説明責任の欠如を露呈するものと言える。
AIモデルの競争が激化する中で、スコアを強調するプロモーションが先行しがちだが、利用者や開発者にとって実用性のある指標とは限らない点に注意が必要である。特にFrontierMathのような高難度ベンチマークでは、評価対象やバージョンの違いが結果に大きく影響しうる。
にもかかわらず、ベンチマークの前提条件や設定が明確に開示されていない場合、数値だけが独り歩きしてしまう恐れがある。こうした問題は、AI技術の社会実装における信頼性の土台を揺るがしかねない。今後は、第三者機関による標準化やベンチマークのガイドライン整備といった、制度的対応が急務とされる局面に突入している。
Source: TechCrunch