OpenAI、大規模言語(LLM)の透明性を高めるツールを開発

新たなOpenAIのツールは、これまで解釈と説明が困難だった大規模言語モデル(LLM)の振る舞いを説明しようと試みている。

参考：OpenAI’s new tool attempts to explain language models’ behaviors

大規模言語モデルの解釈や説明の困難さが存在

OpenAIのChatGPTのような大規模言語モデル（LLM）は謎であるとよく言われ、ある程度、それは真実である。データサイエンティストでさえ、モデルが常になぜそのように反応するのかを理解し説明するのは難しい。

LLMがどのように動作するのかを解明するために、OpenAIはLLMのどの部分がどの振る舞いを引き起こすのかを自動的に解明するツールを作っている。これを作ったエンジニアたちは、まだ初期段階であると言っているが、そのコードがGitHub上でオープンソースとして公開されている。

TechCrunchとの電話インタビューで、OpenAIの解釈可能性チームのマネージャーであるWilliam Saundersは、「AIシステムがどのような問題を持つかを予測する方法を見つけようとしている」と述べた。「モデルが行うことや答えを信頼できることを確認したい」。これを達成するために、OpenAIのツールは言語モデルを使用して、他のより単純なLLM、例えばOpenAI自身のGPT-2の部分の機能を解明しようとしている。

どのようにLLMを解釈するのか

まず、LLMの簡単な説明から始める。彼らは脳と同様に、「ニューロン」から成り立っていて、それらはテキスト中の特定のパターンを探し、その情報を使用してモデル全体が次に「言う」ことを変える。例えば、モデルがスーパーヒーローについての質問（例えば、「どのスーパーヒーローが最も有用なスーパーパワーを持っていますか？」）を与えられた場合、「マーベルのスーパーヒーローニューロン」は、それがマーベルの映画から特定のスーパーヒーローの名前を挙げる可能性を高めるかもしれない。

これはOpenAIのツールによって、モデルをその個々の部分に分解するために使用される。まず、ツールはテキストシーケンスをテスト中のモデルを通じて実行し、特定のニューロンが頻繁に「活性化」する場面を待つ。

次に、GPT-4、OpenAIの最新のテキスト生成AIモデルに、これらの高度に活性化したニューロンを「見せ」、GPT-4に説明を書かせる。ツールはGPT-4にテキストシーケンスを与え、ニューロンがどのように行動するかを予測またはシミュレートさせる。これは説明の正確さを示す。次に、シミュレートされたニューロンの行動が実際のニューロンの行動とどのように比較されるかを見る。

OpenAIの見解や目指すもの

OpenAIのアライメントチームを率いるJeff Wuは、「この方法を使用すると、各ニューロンが何を行っているのかについての初期的な自然言語の説明と、その説明が実際の振る舞いとどの程度一致するかのスコアを基本的に得ることができる」と述べた。「ニューロンが何を探しているのかの説明を作るためにGPT-4を一部のプロセスとして使用し、その説明がニューロンが実際に行っていることとどの程度一致するかをスコア付けする」としている。

ツールはGPT-4なしでは動作できないため、皮肉な人はこれが実際にはGPT-4の広告に過ぎないとも言える。他のLLM解釈ツール、例えばDeepMindのTracr（それはプログラムをニューラルネットワークモデルに変換するコンパイラーである）は、商用APIにあまり依存しない。

しかし、Wuはそれが事実ではないと述べた。ツールがGPT-4を使用しているのはただの「偶然」であり、一方で、それはGPT-4がこの領域でどれほど弱いかを示しているとも言った。彼はまた、それが商用利用のために作られたものではなく、理論的にはGPT-4以外のLLMとも連携できるように変更できるとも言った。

Wuは、「ほとんどの説明はスコアがかなり低いか、実際のニューロンがどのように動作するかについてそれほど説明していない」と言った。「例えば、多くのニューロンは何が起こっているのかを理解するのが難しい方法で動作する。それらは5つや6つの異なることを行うかもしれないが、明確なパターンはない。時々明確なパターンがあるが、GPT-4はそれを見つけられない」。

それはもっと複雑で、新しく、大きく、または情報を検索することができるモデルについても言える。しかし、Wuは、ウェブ閲覧がツールが二番目のポイントでどのように機能するかについて大きく変わることはないと考えている。彼は、それはニューロンが特定の検索エンジンのクエリを使用したり、特定のウェブサイトを訪れたりする理由を見つけるために微調整するだけで良いと言った。

Wuは、「これが自動化でき、他の人が構築して追加できる解釈可能性に対する有望な方法を開くことを願っている」と述べた。「願いは、ニューロンが何に反応するかだけでなく、これらのモデルが全体としてどのように行動するか、どのような回路を使用しているか、一部のニューロンが他のニューロンにどのように影響を及ぼすかについても、良好な説明が得られることだ」と述べている。

AIの透明性と説明可能性向上への期待と限界

OpenAIのこの新しいツールは、我々が言語モデル、特に大規模言語モデル（LLMs）の内部動作を理解しようとする取り組みの一環である。このようなツールは、AIの透明性と説明可能性の問題に対処するための一歩となりうる。これらのモデルがどのように動作し、特定の出力を生成するためにどの要素を重視しているのかを理解することは、AIの予測可能性と信頼性を高めるために重要である。

しかし、このツールにはまだいくつかの限界が存在する。その一つは、ツールが現在GPT-4に依存していることである。これは、他のLLMや他のAIモデルに対してもツールを適用するための一般的なフレームワークが必要であることを示している。また、ツールが現時点で説明できるニューロンの数が全体に対して非常に少ないという事実も、そのスコープと能力に制限があることを示している。

さらに、ツールがニューロンの動作を説明する能力が限定的であるという問題もある。すなわち、一部のニューロンが複数の異なる機能を果たす可能性があり、そのパターンを明確に把握することが難しい。これは、AIの解釈可能性に関するより広範で深い問題を浮き彫りにしている。

このツールはあくまで「解釈」を提供するものであり、「理解」を提供するものではない。これは、AIの「思考過程」を人間が完全に理解できるようにするのではなく、出力を生成するための内部機構に対する一定の洞察を提供するものである。

総合的に見れば、この新しいツールは確かに興味深い取り組みであり、AIの透明性と説明可能性についての議論を進展させるための一歩となる可能性がある。しかし、これらの目標を達成するためには、まだ多くの課題と難問が待ち受けている。