OpenAIは2025年4月2日、AIの研究再現能力を精緻に評価する新たなベンチマーク「PaperBench」を発表した。対象となるのはICML 2024で発表された20本の注目論文であり、それぞれが詳細な評価基準に基づく8,000超のサブタスクに分割されている。

この取り組みは同社の「Preparedness Framework」の一環であり、AIエージェントが高度な論文を読み解き、コードを作成し、実験を再現する一連の能力を検証するものとなる。評価作業にはLLMベースのAI評価者が導入されており、大量の結果に対して自動的な採点を実施する構造である。

初期テストでは「Claude 3.5 Sonnet(New)」が再現スコア21.0%で最高成績を記録したが、博士課程学生との比較実験では、現行のAIモデルが人間の水準に到達していない実態も浮き彫りとなった。

ICML論文を基盤に構成された再現ベンチマークの全貌

PaperBenchは、2024年の国際機械学習会議(ICML)にて採択された20本の論文を対象に、AIエージェントがどれほど正確に研究を再現できるかを評価する仕組みである。

各論文は細分化され、合計8,316のサブタスクとして整理されており、論文の読解、コード生成、実験実行といった一連の研究プロセスが反映されている。これらは原著者と協議の上で策定された厳密な評価基準に基づき採点されるため、現実の研究再現に極めて近い構成となっている。

また、評価には大規模言語モデル(LLM)ベースのAI評価者が用いられ、膨大なタスクに対する判定を自動化している。これにより、人手による主観の排除と採点の一貫性が担保されている点も注目に値する。加えて、評価対象の論文は、ICMLにおけるスポットライト発表や口頭発表といった、学術的にも評価の高い研究に限定されており、テスト対象としての妥当性が高い。

この構成は、単なるアルゴリズム性能の検証ではなく、AIが科学的思考と再現性をどの程度担えるかという核心的課題に踏み込んでいる。単なる正答率では測れない、学術的再現力という視点を導入した点で、他のベンチマークとの差別化が図られている。

Claude 3.5の結果と人間との比較が示すAIの限界

PaperBenchの初期検証では、Anthropicが開発した「Claude 3.5 Sonnet(New)」が最も高い成績を残した。オープンソースツールのみを用いて、平均再現スコア21.0%という結果を記録しており、現時点でのAIエージェントとしての到達点を示している。このスコアは、AIが一部の研究課題において既に一定の再現能力を有していることを意味するが、全体としてはなお発展途上であることを裏付ける。

一方で、OpenAIは機械学習専攻の博士課程学生を対象とした比較実験も実施している。PaperBenchにおける一部タスクに人間が挑んだ結果、現行のAIモデルはいずれも人間の精度に及ばないことが明らかになった。

この事実は、複雑な研究工程においてAIが直面する課題の多さを物語るものであり、特に前提知識の統合や文脈理解、創造的解釈といった高度な認知機能において、人間の優位性がなお健在であることを示唆する。

再現スコアという定量的評価に現れない側面を見逃してはならず、単なる出力精度だけでなく、実験の意義や条件の適正さを理解し再現する能力こそが、今後のAI評価の鍵となる。PaperBenchは、こうした次世代の指標を提示する試金石と位置づけられる。

Source:MSPoweruser