Metaは、Llama 4シリーズとして「Scout」と「Maverick」の2つのオープンウェイトAIモデルを発表した。Scoutは単一GPUで動作可能ながら1000万トークンの長大な文脈を処理し、画像とテキストを一体化する「早期融合」構造を採用。Maverickはエンタープライズ向けの4000億パラメータモデルで、GPT-4oを超えるベンチマークスコアを記録した。

両モデルはMixture-of-Expertsアーキテクチャと新しい位置エンコーディング「iRoPE」を導入し、高速かつ効率的なマルチモーダル推論を実現。さらに2兆パラメータ級の教師モデル「Behemoth」がその精度を裏付けており、Meta独自の動的スケーリング技術「MetaP」により多様な用途に適応可能となっている。

単一GPUで1000万トークンを処理 Llama 4 Scoutが示す新しい可能性

Llama 4 Scoutは、わずか1枚のH100 GPUに収まる設計でありながら、従来の10倍に相当する1000万トークンのコンテキスト処理能力を実現している。これはint4量子化による軽量化と、Sparse Mixture-of-Expertsアーキテクチャの最適化による成果であり、画像とテキストを単一のバックボーンで扱うマルチモーダル性能も備えている。Scoutのパラメータ数は1億900万と小規模だが、エキスパート16体を適応的に活性化することで、計算効率を保ちながら精度の高い応答を可能にしている。

ベンチマークではChartQAで88.8、DocVQAで94.4、MMLU Proで74.3を記録し、単一GPUモデルとしては異例の性能を発揮。実用面では、長文入力に対応するiRoPEの導入が大きく寄与しており、位置情報の柔軟な処理により文脈の途切れを感じさせない。こうした構造は、軽量なローカル環境でも高精度な出力を期待できる設計であり、クラウドに依存しないAI活用を志向する層にとっては魅力的な選択肢となり得る。

Scoutは、マルチモーダル応答の一貫性や視覚的理解の分野でも一定の実用水準を満たしており、特に画像とテキストの関係性をプロンプトに応じて適切に結びつける精度が評価されている。コンパクトながら本格的な生成AIを試したい層にとって、Scoutの構造は新しいスタンダードの提示といえる。

GPT-4oを超える高精度 Llama 4 Maverickの本格性能とは

Llama 4 Maverickは、4000億パラメータと128体のエキスパートを駆使する構造により、極めて高度な推論・視覚認識能力を実現している。ベンチマーク結果では、ChartQAで90.0、DocVQAで94.4、MathVistaで73.7、そしてMMLU Proで80.5という高スコアを記録し、GPT-4oやGemini 2.0 Flashを上回る性能を示した。特にLiveCodeBenchにおける43.4というスコアは、実践的なプログラミングタスクにも対応できるレベルである。

これを支えているのが、トークンごとに適応的にエキスパートを選択・活性化するスパースルーティングの仕組みであり、密な層との交互構成によって柔軟な学習が可能となっている。さらに、コンテキストウィンドウは最大256Kまで対応し、長大な文書や多段階の指示にも対応できる点も見逃せない。入力出力比3:1での推論コストは$0.19〜$0.49とされ、高性能モデルとしては現実的な範囲に収まっている。

Maverickの実力は、単にスコアの高さにとどまらず、視覚とテキストの統合が自然である点にも表れている。事前学習段階から視覚情報とテキストを融合して扱う「早期融合」は、画像理解において高い整合性をもたらし、画像説明や文脈に沿った生成において大きな強みを発揮している。現時点でもエンタープライズ向け用途に対応するが、今後の軽量化やパーソナル化の展開が期待される。

巨大教師モデルBehemothが担う裏側の進化とMetaの狙い

Llama 4 ScoutとMaverickの両モデルは、2兆パラメータ規模の教師モデル「Behemoth」によるコディスティレーションを通じて訓練された。Behemothは2880億のアクティブパラメータを持ち、MATH-500で95.0、Multilingual MMLUで85.8など、多様なタスクでClaude Sonnet 3.7やGPT-4.5を凌駕するベンチマークを記録している。さらに、トレーニングには32,000枚のGPUとFP8精度が用いられ、圧倒的な計算資源が投入されている点が特徴である。

Behemothは公開されていないが、その存在によってScoutとMaverickの性能の土台が大きく引き上げられていることは明白であり、今後のLlama 4-Vや次世代モデルの発展にも重要な布石となる。位置エンコーディング「iRoPE」や、ハイパーパラメータを動的に調整できる「MetaP」といった新技術も、この大規模モデルのトレーニング過程での成果といえる。

Behemothの投入は、単なる技術誇示ではなく、オープンウェイトモデルを高精度かつ柔軟に活用可能にするための裏方的支援として機能している。特定分野の精度向上や多言語対応、さらには安全性や中立性の改善まで、多岐にわたる課題に対して広範な学習能力を与える役割を担っていると考えられる。4月末に予定されるLlamaConでの詳細発表にも注目が集まる。

Source:WinBuzzer