非営利団体Arc Prize Foundationが発表した新たな汎用人工知能(AGI)評価基準「ARC-AGI-2」により、主要AIモデルの限界が改めて浮き彫りとなった。OpenAIの「o3-low」は4%、Googleの「Gemini 2.0 Flash」やDeepSeekの「R1」は1.3%、Anthropicの「Claude 3.7」は0.9%という低スコアに終わっている。

このテストは、記憶や専門知識ではなく、初見の課題に対する推論力と応用力を重視する設計となっており、従来のベンチマークでは見えにくかったAIと人間の本質的な知能差を明らかにした。

一部の技術者は「AGIは数年で実現可能」と強気の見方を示すが、AIが人間のように学習し、新しいスキルを柔軟に身につける力には依然として大きな課題が残されている。

AGI到達度を可視化したARC-AGI-2の革新性

非営利団体Arc Prize Foundationが開発したベンチマーク「ARC-AGI-2」は、これまでのAI評価とは一線を画す。従来のモデルは専門知識や記憶力に依存する出力に強みを持っていたが、本ベンチマークは未知の問題に対して、推論や文脈理解を駆使して解を導き出す能力に主眼を置いている。OpenAIの「o3-low」は4%、Googleの「Gemini 2.0 Flash」、DeepSeekの「R1」はともに1.3%、Anthropicの「Claude 3.7」に至っては0.9%と極めて低い得点に留まり、現行の最先端モデルが汎用知能とは程遠いことを示す。

このARC-AGI-2が重視するのは、初見の情報を受け入れ、それを抽象化・一般化し、予想外の状況に応用できる能力である。つまり、単なる知識の蓄積ではなく、知識を活かす知能そのものが問われている。テスト内容は視覚的なパズルで構成され、人間にとっては日常的な推論に近いが、AIにとっては極めて困難な領域となる。特化型AIの性能が向上する一方、汎用性の壁は依然として厚く、AGI実現への過信を戒める材料となっている。

先端AIが低スコアに沈んだ理由と人間の優位性

OpenAI「o3-low」がARC-AGI第1版で75.7%という高スコアを記録していたにもかかわらず、最新版ではわずか4%という結果に転じた。この劇的なスコア低下は、単なる問題の難易度上昇ではなく、ベンチマーク設計の根本的な思想転換を物語る。つまり、知識の再生ではなく、認知の柔軟性と創造的推論を要求する構造に変わったことで、AIの根本的な弱点が露呈したといえる。

人間は情報の少なさや曖昧さを許容しつつ、パターンを読み取り、論理的に解釈する力を備えている。これはクロスワードやWordleのような娯楽の中にも反映されており、日常的な思考訓練の延長線上でARC-AGIの問題を理解できる点において、AIとは本質的に異なる。AIが大量の学習データから演繹的に導き出すアプローチに対し、人間は限られた情報から帰納的に意味を構築する。この差がスコアに如実に表れている。AGIへの期待が先行するなか、人間知能の持つ直観と柔軟性の価値は改めて見直されるべきであろう。

AGI実現時期を巡る見解の分裂とその背景

AGIの到達可能性を巡って、業界内では大きな認識の分裂が生じている。AnthropicのCEOダリオ・アモデイは「2~3年以内にAGI達成が可能」と述べ、OpenAIのサム・アルトマンも「現行ハードウェアでも実現可能」と自信をのぞかせる。これに対し、Gary MarcusやYann LeCunは冷静な立場を取っており、現在のAIは過大評価されており、企業による投資誘引のための誇張が存在すると指摘している。

この対立は、技術進歩のスピードを巡る見解だけでなく、AGIの定義自体の曖昧さにも起因している。特定領域での卓越した性能をもって汎用知能と見なすのか、それとも真に文脈を理解し、柔軟に応用できる知能こそを指すのかで評価が分かれる。現実として、ARC-AGI-2での主要モデルの低得点は、現行AIがいまだ「強いAI」の域に到達していないことを明確に示している。AGIの未来像を描くには、理想と実態のギャップを直視する冷静さが不可欠である。

Source:Mashable