マイクロソフトの研究チームは、20億パラメータと4兆トークンで訓練された1.58ビット表現の大規模言語モデル「BitNet b1.58 2B4T」を発表した。重みを-1、0、+1に限定する三値構造を採用し、推論時のメモリ消費は400MBと圧倒的に少なく、Apple M2などのCPU上でも実行可能である点が特徴とされる。
他社の軽量モデルと比較しても多くのベンチマークで優れた性能を示し、特にMT-benchでは平均スコア55.23とトップクラスの結果を記録した。bitnet.cppと呼ばれる専用フレームワークを通じてローカル実行が可能で、AI専用ハードウェアを用いずとも効率的な運用が見込まれる。
計算資源への依存度を抑える同技術は、今後の省電力・省コスト志向のAI開発において重要な転換点となる可能性がある。
三値重みと1.58ビット構造がもたらす極限の軽量化

BitNet b1.58 2B4Tの最大の特徴は、-1、0、+1の三値重みによって構成された1.58ビット形式にある。この手法により、32ビットや16ビットの浮動小数点を用いる従来型モデルと比較して、推論時のメモリ使用量を大幅に抑制している。
具体的には、非埋め込みメモリ消費量はわずか400MBに留まり、GoogleのGemma 3 1B(1.4GB)を含む他モデルの30%以下という効率を達成している。さらに、CPUによるデコードにおいても29msの低レイテンシを実現しており、演算資源の限られた環境下での応答性能に優れていることが示されている。
この軽量構造は、モデルの規模と精度のバランスを取る新たな設計哲学を提示するものである。特にエネルギー効率や装置コストが課題となる領域において、BitNetはLLM設計のひとつの方向性を示唆している。ただし、ビット数の簡略化が精度に与える影響を完全に払拭するには至っておらず、高精度を求める応用には慎重な判断が求められる。
既存LLMとの性能比較とベンチマークにおける優位性
BitNet b1.58 2B4Tは、MetaのLLaMa 3.2 1B、AlibabaのQwen 2.5 1.5B、GoogleのGemma 3 1Bといった先行の軽量LLMと比較されており、特にMT-benchにおいて平均スコア55.23という成績で最上位を記録している。
これにより、単なる省リソース化だけでなく、一定の応答精度を両立した実用性が評価されている。加えて、非GPU環境における処理性能の高さも注目されており、従来なら対応困難とされた環境へのAI適用を拡大する可能性を示している。
もっとも、こうした性能評価は特定のベンチマーク環境におけるものであり、用途や入力の複雑性によって結果が変動する点は留意すべきである。各種モデルの中でもBitNetはローカル推論を前提にした設計が功を奏しており、特定用途向けのモデル構築手法として今後模倣されることが予想されるが、その汎用性については慎重な検証が不可欠である。
bitnet.cppによるCPU特化の実行環境と今後の展望
BitNetの運用には、GitHubで公開されている専用推論フレームワーク「bitnet.cpp」が必要とされている。この環境は、CPU上でのロスレスかつ高速な推論を実現するために最適化されており、従来のtransformersライブラリでは再現できない性能を発揮することが強調されている。現時点ではNPUやGPUには未対応であるが、将来的には対応の拡張が予定されていることが記されている。
この点において、BitNetはAI開発におけるハードウェア依存性の見直しを促す事例となりうる。特に、分散サーバーや高価な演算資源を確保できない小規模環境や個人ユーザーにとって、低消費電力・低コストでのローカルAI実行は大きな利点となる。bitnet.cppの普及と最適化が進めば、生成AI技術の民主化という文脈でも重要な一歩と位置づけられる可能性がある。
Source:Tom’s Hardware