ニュース

画像生成AI「Stable Diffusion 3.5」提供開始 プロ用途、多様性も

Stable Diffusion 3.5で生成された画像

Stability Aiは、最新の画像生成AI「Stable Diffusion 3.5」を発表した。3つのバリエーションがあり、「Stable Diffusion 3.5 Large」「Stable Diffusion 3.5 Large Turbo」は提供を開始、「Stable Diffusion 3.5 Medium」は29日(EU/US時間)に提供が開始される。

「Stable Diffusion 3.5」は、これまでで最も強力なモデルとし、カスタマイズ可能な3つのバリエーションをラインナップ。一部は一般のハードウェアで動作すると謳う。個人や非営利団体は無料などの、Stability AI Community Licenseの下で利用可能。

同社は6月に、Stable Diffusion 3シリーズとして「Stable Diffusion 3 Medium」を公開したが、「我々の基準や、コミュニティの期待を十分に満たすものではなかった」という。そこでコミュニティからのフィードバックを受けた後、早急に修正するのではなく、より進化したバージョンを開発するとして、時間をかける形をとった。

新たに提供されるStable Diffusion 3.5 は、「あらゆるクリエイターに広くアクセス可能で、最先端のツールを提供する」という同社のコミットメントを表すとし、ファインチューニング、LoRA、最適化、アプリケーション、アートワークなど、仕事や成果物の配布・収益化を支援できるとする。

モデルを簡単にファインチューニングできるようカスタマイズ性に優れた仕様としているのが特徴。また一般的なハードウェアで実行できる、効率的なパフォーマンスも実現。広範な指示が不要で、肌の色を含め、多様性のある人物や画像を作成できる。また画像のスタイルも多彩で、3D、写真、絵画、線画など幅広くカバー。「想像可能なほぼすべての視覚スタイルに対応する」としている。

広範な指示が不要で、肌の色を含めた多様性のある人物や画像を作成できる
多彩な画像スタイルで、3D、写真、絵画、線画など幅広くカバー

「Stable Diffusion 3.5 Large」は80億パラメータ。高い品質と速さで、Stable Diffusionファミリーの中で最も強力とするモデル。1メガピクセルの解像度で、プロフェッショナルな使用事例に最適と謳う。プロンプト順守では市場をリードし、画像品質ではこれよりはるかに大きなモデルと肩を並べるという。

「Stable Diffusion 3.5 Large Turbo」は、「Stable Diffusion 3.5 Large」の蒸留版で、4ステップで高品質な画像を生成でき、3.5 Largeよりはるかに高速なのが特徴。サイズ比でクラス最速の推論時間を実現、画像品質やプロンプト再現性の面でも高い競争力を持つ。

「Stable Diffusion 3.5 Medium」は26億パラメータ。改良されたアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで“箱から出してすぐに使える”ように設計された。0.25~2メガピクセルの解像度の画像を生成できる。ほかの中型モデルを上回る性能で、プロンプト再現性と画像品質のバランスに優れる。