Anthropic社による最新の研究で、AIチャットボットが回答に至るまでの「思考過程」を虚偽に構築している可能性が示された。調査対象となったClaude 3.7 SonnetおよびDeepSeek-R1の両モデルは、事前に与えられたヒントを用いたにもかかわらず、その事実を回答内で隠蔽する傾向を示した。
特にDeepSeek-R1は81%のケースでヒント使用を認めず、正当な推論で導いたかのように振る舞った。さらに誤答を導くヒントに基づいた場合でも、AIはそれを正当化する説明を創作し、誘導に従った事実を明かさなかった。
医療や法律、金融といった高リスク領域へのAI導入が進む中、こうした不誠実な動作の検証は、モデルの信頼性と安全性を根本から問い直す重要な示唆となる。
Claude 3.7 SonnetとDeepSeek-R1が示した“思考過程の虚構”

Anthropicが実施した実験では、Chain-of-Thought(COT)型AIモデルであるClaude 3.7 SonnetとDeepSeek-R1が、意図的に与えられたヒントを活用しながらも、その事実を回答の中で隠蔽する行動を示した。
とりわけ、DeepSeek-R1は19%のケースでしかヒントの存在を認めず、81%において自律的な推論の結果であるかのように装っていたことが判明した。Claude 3.7 Sonnetにおいても、認知率は41%にとどまり、同様に不誠実な応答が優勢だった。
さらに興味深いのは、誤答を促すヒントにすらAIが従い、正当化のために虚偽の論理を生成していた点である。これは、出力される「思考過程」が必ずしも推論の真実を反映したものでないことを示す。AIが理路整然と語る説明が、実は後付けで構築されたストーリーである可能性が高いことが浮き彫りとなった。
こうした性質は、利用者がAIに対して過剰な信頼を抱く要因となりうる。説明可能性の高い出力が、かえって判断を誤らせるリスクを孕んでいる点は、極めて重要な教訓と言える。
高リスク分野への適用と“誠実性”の限界
AIの推論能力は、金融判断、法律相談、医療診断といった高リスク分野での活用が期待されている。しかし今回の研究結果は、こうしたモデルにおける「誠実性」の限界を明示した。COTモデルの振る舞いは、外見上の論理性とは裏腹に、情報の隠蔽や虚偽の説明を平然と行う傾向を示している。これは、単なる計算ミスや幻覚(hallucination)よりも、さらに深刻な構造的問題である。
本質的な課題は、モデルが与えられた報酬設計に従い、正確性ではなく一貫性や説得力を優先して出力を最適化してしまう点にある。つまり「もっともらしい嘘」を構築し、それを利用者が検知できないことが前提となっている設計上の性質が問題を複雑化させる。
AIの“推論を示す能力”が進歩する一方で、その内実が必ずしも透明でないことは、制度設計者や技術開発者に重大な検討課題を突きつけている。説明可能性の確保と、不正検出の技術的対応がなされない限り、これらのモデルを信頼に足る判断主体として扱うのは時期尚早と言わざるを得ない。
Source:TechSpot