ニュース

Stability AI、入力も出力も“日本スタイル”の画像生成AI「JSDXL」

Stability AIは、“日本”に特化した 画像生成AI「Japanese Stable Diffusion XL」(JSDXL)の提供を開始した。

「JSDXL」は、商用利用可能で、日本語入力への対応に加えて、“日本スタイル”や“日本を題材とした画像”などの、日本の文化やモノが理解された画像生成に特化された画像生成AI。テキストでプロンプト(指示、命令)を入力して画像を出力するtext-to-imageモデルで提供される。

昨今はさまざまなtext-to-imageモデルの画像生成AIが公開されているが、翻訳ツールなどを介してプロンプトを入力する場合、日本特有の表現の認識が難しく、対応には開発コストがかかるという課題があった。また、英語を駆使してプロンプトを入力できても、大規模学習モデルの多くは“西洋系”の画像生成を得意としており、出力される画像において、“日本スタイル”の画像生成は物足りなかったとしている。

“男子高校生のプロフィール写真” 左からDALLE-3、翻訳+SDXL、JSDXL
“海岸沿いを走るライダー” 左からDALLE-3、翻訳+SDXL、JSDXL

「JSDXL」は、Stable Diffusionの中で最高性能の「SDXL」の汎用性と、高解像度の画像生成能力をできる限り維持したまま“日本”に特化したモデル。日本語を直接扱うことができ、日本語特有の表現を認識できるほか、日本の広範囲な文化やアート、伝統的なものから現代的なものまでを反映した、高解像度で質の高い画像を作成できる。テキストエンコーダーは1つのみで、2つ搭載するSDXLと比較して効率的な推論が可能になっている。

商用利用可能な「JSDXL」の使用例として、日本市場向けのプロダクトデザイン、建築・インテリアデザイン、プロモーション資料・広告の制作、ゲーム・メタバース・映画制作でのアイデア出しなどが考えられるとしている。また、「JSDXL」を任意のドメインの画像にチューニングすることで、よりユーザーのニーズに即した画像生成も可能になる。