オープンソースの画像生成AI「Stable Diffusion」がバージョン3.5にアップデートされた。この新モデルは、以前のバージョンで指摘された問題点を修正し、プロンプトへの反応精度を大幅に向上させた。さらに、多様なスタイルや肌の色、特徴を持つ人物を生成できるように調整されており、特別な指示がなくても幅広い表現が可能となっている。最新のStable Diffusion 3.5は、3つのモデルが用意され、それぞれ異なるニーズに応える構成となっている。
バージョン3.5の概要と進化した点
Stable Diffusion 3.5は、オープンソースの画像生成AIとして、以前のバージョンから大きな進化を遂げた。特に、プロンプトへの応答精度が向上し、他の画像生成モデルと比べても質の高い出力を実現している点が特徴である。
新バージョンでは、スタイルや肌の色、特徴に関してより多様性を持たせるための調整が施されており、特別な設定を必要とせずに多様な表現が可能になっている。また、過去に問題とされた「Stable Diffusion 3 Medium」のリリース時の欠点も修正されている。
特に、プロンプトに対する反応が不十分であった点や、意図しないグロテスクな表現が生じる問題に対しては改善がなされた。今回のアップデートは、プロンプトへの忠実さを保ちながらも、表現の幅を広げる試みが見られる。
新モデル3種類の特徴と用途
今回のバージョン3.5では、3つの異なるモデルが提供されており、それぞれが異なる使用ニーズに対応している。最も高性能な「Stable Diffusion 3.5 Large」は、プロフェッショナル向けに1メガピクセルの高解像度で質の高い画像を生成できる。特に、プロンプトの忠実度が高く、業界内でもトップクラスの精度を誇る。
次に「Stable Diffusion 3.5 Large Turbo」は、大規模モデルを圧縮した効率的なバージョンであり、品質と処理速度のバランスを追求したモデルである。最後に「Stable Diffusion 3.5 Medium」は、消費者向けのハードウェアでも動作するよう設計されており、0.25から2メガピクセルの範囲で画像生成が可能である。これらのバリエーションにより、用途に応じた柔軟な選択ができるようになっている。
過去の問題点を克服する取り組み
Stable Diffusion 3 Mediumのリリース時には、プロンプトへの対応が不十分で、意図しないグロテスクな表現が生まれるといった問題が発生した。今回のバージョン3.5では、これらの問題点に対する明確な改善が行われている。具体的には、プロンプトへの忠実度を飛躍的に向上させることで、ユーザーの意図をより正確に反映する画像生成が可能となった。
また、Stability AIは問題の改善にとどまらず、ユーザーコミュニティからのフィードバックを積極的に取り入れることで、モデルの精度をさらに高める努力を続けている。これにより、バージョン3.5は以前の失敗を踏まえた信頼性の高いリリースとなっており、多様なニーズに対応するための設計が強化されている。
多様性を反映した新たなフィルタの導入
バージョン3.5では、多様性を重視した新たなフィルタが導入されており、人間の外見をより幅広く表現できるように改良されている。これにより、特別なプロンプトを使用せずとも、多様な肌の色や顔の特徴を持つ人物が生成可能となった。Stability AIは、このフィルタにより、世界中の多様な人々を代表する表現を目指している。
この改良は、単なる外見の多様化にとどまらず、歴史的・文化的な背景にも配慮したものである。過去のAIモデルにおいては、特定の人種や特徴を誤って描写することが問題視されたが、今回のアップデートではそのような過ちを避けるための設計が施されている。これにより、より現実的で包摂的な画像生成が実現されている。