Stability AIは、画像生成AI技術の進化を目指し、Stable Diffusion 3.5を発表した。今回のバージョンアップでは、以前のリリースでの課題を克服し、精度と多様なニーズへの対応を強化している。特に高性能モデルや高速版、エッジ向けモデルの提供で、競争が激化する市場での優位性を取り戻そうとしている。
Stability AI、苦戦からの再挑戦
Stability AIは、初期の市場での成功にも関わらず、最近は競争の激化により苦戦していた。OpenAIのDALL-EやMidjourneyなどの他社の台頭により、Stability AIの市場シェアは減少傾向にあった。今回のStable Diffusion 3.5のリリースは、こうした状況を打開するための重要な一歩となる。
6月に公開されたStable Diffusion 3は期待された成果を十分に達成できず、同社もその限界を認めていた。これを踏まえ、開発チームは問題の詳細な分析を行い、改善策を導入することで品質の向上を図った。こうした取り組みが実を結び、3.5ではモデルの安定性や精度が向上している。Stability AIは今後も進化を続け、ユーザーの要望に応える製品を提供する方針である。
多様なモデルで異なるユーザー層に対応
Stable Diffusion 3.5は、ユーザーの多様なニーズに応じた3つの異なるモデルを提供している。最上位の「3.5 Large」は8億パラメータで構成され、最も高い品質とプロンプトへの精度を誇る。一方、「3.5 Large Turbo」はその高速版であり、より短時間での生成を可能にする。さらに、「3.5 Medium」は2.6億パラメータで、エッジコンピューティング環境に最適化されている。
これらのモデルはすべて、非営利使用に無料で開放されており、商業利用の場合も年商100万ドル未満の企業は無料で使用可能である。このような柔軟なライセンス体系により、幅広いユーザーがAI技術を利用できるようになっている。大規模な商用展開には別途エンタープライズライセンスも用意されており、ビジネス用途にも対応している。
高速化・品質向上を実現する新技術の導入
Stability AIは、Stable Diffusion 3.5の開発にあたり、いくつかの新しい技術を採用した。そのひとつが「Query-Key Normalization(QK正規化)」である。この技術は、モデルのトレーニングとファインチューニングを安定化させ、カスタマイズの容易さを向上させる効果がある。
また、MMDiT-Xアーキテクチャの強化も行われている。このアーキテクチャは、ディフュージョンモデルとトランスフォーマーモデルの技術を融合させたもので、画像の解像度や品質を向上させる。これにより、プロンプトへの忠実度も向上し、ユーザーの期待するイメージをより正確に生成できるようになっている。今回の3.5では、トレーニングデータの選別やキャプション付けにも改良が加えられ、出力結果の品質がさらに向上している。
プロ向け機能ControlNetの将来展望
Stability AIは、Stable Diffusion 3.5の将来のアップデートとして「ControlNet」の導入を計画している。この技術は、画像の空間的な制御を可能にし、プロフェッショナルな用途での活用を見据えている。例えば、画像の拡大時に色合いを保つ、または特定の深度パターンに従った画像を生成するなど、専門的なニーズに応える設計が可能となる。
ControlNetは、2023年7月にリリースされたSDXL 1.0で初めて導入された技術であり、その応用範囲は今後さらに広がる見込みである。こうした機能拡張により、Stability AIは市場での競争力を一層高め、専門家からの支持を得ることを目指している。同社は、進化し続ける技術を活用して、より多くのユーザーに価値を提供していく方針を掲げている。