TikTokを傘下に持つByteDanceが、新たな推論型AI「Seed-Thinking-v1.5」を発表した。本モデルは2000億パラメータを備えつつ、Mixture-of-Expertsアーキテクチャによって1回の処理に使用するパラメータ数を200億に抑えることで、効率的かつ高精度な推論を実現する。

推論性能は、Gemini 2.5 Proやo3-mini-highを含む競合モデルを上回る水準に達しており、特にAGI評価に用いられるARC-AGIベンチマークで顕著な成果を示した。また、VAPOおよびDAPOと呼ばれる強化学習ベースのトレーニング手法によって、複雑な推論過程における安定性も強化されている。

学習にはSTEM問題や創造的作業に関する多様なデータを用いており、ByteDanceはこのモデルを企業向けの推論支援ツールとして位置付ける意向を示した。将来的には、データ品質を軸とした開発戦略の成否が普及の鍵を握る可能性もある。

推論能力を高めるMixture-of-Experts構造とARC-AGI評価の成果

Seed-Thinking-v1.5は、ByteDanceが独自に設計したMixture-of-Experts(MoE)構造を採用している点で注目される。全体で2000億のパラメータを持ちながらも、1回の推論に使用するのは200億パラメータに限定されており、処理効率と演算精度の両立が図られている。これにより、従来のモノリシックな大規模モデルに比べて低消費で高い柔軟性を持つモデルが実現された。

この技術的選択は、ARC-AGIベンチマークにおける同モデルの高評価とも連動している。ARC-AGIは、人工汎用知能(AGI)の実現度合いを測る指標とされるが、Seed-Thinking-v1.5はこの評価においてGoogleのGemini 2.5 ProやOpenAIのo3-mini-highを上回るスコアを記録した。推論力だけでなく、論理的整合性と応答の精度においても競合モデルを凌駕する結果が示されている。

一方、同モデルがAGIの到達を示唆するわけではなく、あくまでも狭義の推論タスクにおける有効性を評価したにすぎない点は留意が必要である。多様な領域における一貫した知的能力を要求されるAGIの要件には依然として隔たりが存在する可能性がある。

強化学習手法VAPOとDAPOが実現する安定的な推論プロセス

Seed-Thinking-v1.5の学習には、VAPOおよびDAPOと名付けられた強化学習アルゴリズムが活用されている。これらの手法は、長い推論チェーンの中で発生しやすい一貫性の欠如や論理破綻といった問題に対処するために設計されたものであり、トレーニングにおける新たな枠組みを提示するものである。

VAPOは「Value Augmented Policy Optimization」、DAPOは「Data Augmented Policy Optimization」の略称であり、前者は推論結果の価値評価を重視し、後者は訓練データの多様性を取り込むことで柔軟性を高める。これらのアルゴリズムは、従来の単純な教師あり学習に比べて、より洗練された文脈理解と持続的な一貫性を促す設計が特徴である。

こうした技術によって、特に科学的推論や論理的思考を必要とする問いに対して、モデルは安定かつ信頼性の高い応答を生成することが可能となった。ただし、全ての推論課題において万能な手法であるとは限らず、適用領域の特性や設問構造によっては結果にばらつきが生じる余地も残る。今後の応用範囲の拡大には、さらなる検証が求められる。

創造性と実用性を両立するトレーニングデータの選定と企業向け展開

Seed-Thinking-v1.5は、STEM分野に加えて、ロジックパズルやロールプレイ、創作的文章といった非定型問題も含む多様なデータでトレーニングされている。このアプローチは、単なる数理的推論能力にとどまらず、文脈を踏まえた柔軟な応答や創造性も追求する構造を支えている。

ByteDanceは本モデルを、企業のデータ分析や問題解決支援に有効なツールとして位置付けており、特にデータ品質の高さが長期的な成果の鍵を握ると強調する。意思決定支援やエンタープライズAIとしての用途を見据える中で、同社は推論の正確性と応用可能性の両立に重点を置いている。

もっとも、こうした万能性の追求がモデルの設計を複雑化させる側面も否めない。実用性を損なわずに高性能を維持するためには、導入先の業務領域やユースケースに即したカスタマイズやモデル管理手法が問われることになる。今後の商用化においては、モデルの汎用性と制御性のバランスが試金石となるであろう。

Source:VentureBeat