MITとハーバード大学、生成AIの欠陥を指摘：高性能にも関わらず「一貫した世界理解」に課題

MITとハーバード大学の研究者らは、生成型AIが高度なタスクを実行できる一方で、世界についての一貫した理解が欠如している点を指摘した。この研究によると、AIは都市環境の変化に対して適応力を欠いており、特に道の封鎖など予測不可能な状況に対応する際に精度が急激に低下するという。

研究チームは、AIが人間のように世界を理解するためには、新たな評価指標が必要であると結論づけ、現実的な応用における信頼性に大きな課題が残っていることを示唆している。

彼らは、現実のタスクを簡略化した「決定性有限オートマトン（DFA）」を用い、AIが形成する内部モデルの一貫性を検証した。驚くべきことに、ランダムデータで訓練されたモデルが、戦略的データを用いた場合よりも正確な世界モデルを構築する傾向を示した。この結果は、生成型AIが知的なタスクをこなす一方で、依然として人間のような世界認識に至っていないことを浮き彫りにしている。

AIの課題として浮かび上がった「世界モデル」の不完全性

MITとハーバード大学の研究は、生成AIが高度なタスクを達成する能力を持つ一方で、周囲の世界に対する理解や「世界モデル」に一貫性が欠けている現状を明らかにした。研究によると、AIが現実のニューヨーク市内のナビゲーションを行う際、特定の通りが閉鎖されるといった環境の変化に適応するのが苦手であり、そうした変動によって精度が急激に低下した。これにより、AIの判断が現実に対して正確ではない場面が多々発生している。

このような結果は、生成AIがタスクに関する表面的な知識に頼っていることを示唆しており、背景となる「世界の構造」をしっかりと理解しているとは言えない。従来、トランスフォーマーモデルなどの大規模言語モデル（LLM）が言語タスクで高い成果を上げてきたが、同様の手法で現実世界への適応力が得られるかどうかは疑問が残る。

ポスドク研究員のキーヨン・ヴァファ氏も、わずか1％の通りが封鎖されただけで精度が100％から67％まで低下する点に驚きを示し、AIの世界モデルが不完全であることを強調している。

この調査結果から、生成AIの現実世界での応用には、タスクの遂行能力以上に、変化に対する柔軟な対応力や内部モデルの整合性が求められることが浮き彫りとなった。

新たな指標による生成AI評価の試みと「DFA」の導入

研究チームは、AIの世界モデルの一貫性を評価するための新たな指標として「決定性有限オートマトン（DFA）」を活用した。DFAを用いることで、複雑な現実を一連の状態やルールに簡略化し、AIがどのようにこれを認識するかを評価したのである。具体例として、道案内のタスクやオセロといったシーケンスの識別や圧縮のプロセスを用いて、AIが現実の変化に対する適応力をどのように形成しているかが検証された。

DFAにより評価を行った結果、AIが現実を正確に表現するためには、単なるデータの蓄積では不十分であることが示唆された。意外にも、ランダムなデータに基づいたトランスフォーマーモデルの方が、戦略的に設計されたデータで訓練されたモデルよりも正確な内部モデルを構築する傾向が見られた。

これはAIがデータに依存するだけでなく、データ間のつながりや順序にも重要な情報を見出している可能性を示している。この結果から、生成AIの精度や効率だけでなく、その内部にある構造的な理解が、AIの信頼性を高めるために重要であることが明確になった。

生成AIの信頼性と現実世界での応用可能性に向けた今後の課題

生成AIが現実世界で応用されるためには、世界に対する正確なモデルを形成する能力が不可欠である。MITとハーバード大学の今回の研究は、AIが単にデータを処理するだけでなく、データの背後にある現実的な意味やルールを理解する必要があることを強調している。たとえば、都市環境の変化や予期しない障害への対応力が欠けている状態では、生成AIがリアルタイムで役立つシステムとして信頼を得るには難しい面があるだろう。

研究チームは今後、生成AIが持つ欠点を克服するための指標や評価手法をさらに進化させ、異なる科学分野にも応用できる可能性を示唆している。ヴァファ氏が指摘するように、生成AIは現段階では一貫した世界モデルを確立していないが、これはさらなる改良の余地があるとも考えられる。

現実社会でのAIの信頼性を向上させるためには、単なるタスク遂行の能力だけでなく、持続的かつ柔軟な環境理解が求められており、生成AIはその信頼性を問われる段階に入ったといえる。