トピック

画像生成AI「Firefly」がいろんな意味で面白い SF・グラフィックが優秀

Adobe Firefly

画像生成AIが一般の人に使われ出してから、はや1年ほどになるでしょうか。最近では非常にクオリティの高い写真も生み出せるようになっています。その一方で浮上したのが、権利関係を巡る問題です。AIの学習に使われた画像の権利が侵害されているのではないか、といった声が上がるようになりました。

そうした中、学習用画像の権利に配慮したという画像生成AI「Firefly」(ファイヤーフライ)がAdobeから登場しました。同社のストックフォトサービス「Adobe Stock」のほか、オープンライセンスコンテンツ、著作権が切れたパブリックドメインコンテンツという権利関係がクリアな画像だけを学習に使うことで、そのまま商用も可能とするものです。

Fireflyは3月に登場し、現在もベータ版としてフィードバックを得る段階を続けています。ベータ版のうちは生成した画像を商用することはできませんが、Adobe IDを取ればブラウザ上で無料で試すことができます。

Fireflyでの生成例。プロンプトは「夜。鯨。ゴッホ風」。ゴッホの作風が見られる出力になりました

そして7月にはプロンプト(画像を作るための命令文、呪文)が日本語で入力できるようになりました。そこで今回、日本語のプロンプトによる画像生成を行なってみました。既存の画像生成AIは英語での指示が基本になっておりハードルの高さもありますが、Fireflyは日本語で簡単に使えるのでぜひ試してほしいと思います。

Fireflyは将来、PhotoshopやIllustratorなどのソフトに統合されてクリエイティブ作業をサポートする役割を果たすことが期待されています。すでに、ベータ版のPhotoshopにはFireflyを使った一部の機能が実装されています。

「ピカチュウ」は生成できない

Fireflyは、Adobe IDでログインしてからFireflyのページで実行できます。「テキストで画像作成」を選ぶと画面下にプロンプトの入力スペースが出るので好きな指示を入力します。プロンプトはスペースや句読点で区切って単語を並べても良いですし、話しかけるような文章でもOKです。この辺りの柔軟さからも、はじめから広く一般の利用を想定していることが伺えます。

プロンプトに「 日本の夏 」と入力するとこのような画像が出てきました。1度に4枚の違った画像が生成されます。たった一言入力するだけで、これだけの画像が10秒ほどでできあがるのにはやはり驚かされます。

同じプロンプトでも生成ボタンを押すごとに違った出力になります。また、右側の「コンテンツタイプ」が4種類あり、「なし」「写真」「グラフィック」「アート」から選べるようになっています。なお、作成した画像はJPEG形式でダウンロードも可能です。

続いては「 演説するバイデン大統領 」というプロンプトを試しました。すると、ユーザーガイドラインの違反と表示されて、バイデン大統領は出てきません。フェイクニュースなどに利用されるのを防ぐためか、著名人が出てくる画像は生成できないようになっています。

加えて、有害な画像や偏見を助長する出力を排除するために、学習段階での画像選定や処理が行なわれているそうです。こうした安全対策がとられているのもFireflyの特徴です。

次のプロンプトは「 ミッキーマウスを描いてください 」。すると、確かに丸い耳や大きな鼻のネズミが生成されましたが、ディズニーキャラクターの「ミッキーマウス」ではありません。Fireflyではこのように、権利が保護されているコンテンツの生成も防いでいるということです。

同様に「 ピカチュウを描いてください 」と入力すると、やはりピカチュウそのものは出てきません。黄色い動物でピカチュウっぽさがうっすらと透けて見える気はしますが、画像だけ見てもピカチュウだとは思わないレベルでしょう。

続いては、「 自動販売機の中で『できたてのポップコーンはいかが?』と勧める猫のような可愛いキャラクター 」と入力してみました。これはハローキティのポップコーン自販機の説明なのですが、例えキャラクター名を直接入れなくてもハローキティは出てきませんでした。それにしても、プロンプトをなかなかよく理解した画像が出てきたのではないでしょうか?

美少女イラストはどうか?

そして、画像生成AIでよく見かける美少女イラストも生成してみました。プロンプトはシンプルに「 日本の可愛い少女。アニメ風に 」です。すると想像以上に自然な感じでキャラクターが生成されました。

Fireflyで人物を出すと、基本的には外国人風の絵が出てきます。日本人のイメージで出力したい場合は、「日本の」などのキーワードをプロンプトに含ませる必要があります。

さらにプロンプトの要素を追加して「 日本の可愛い少女。アニメ風。夏。室内。扇風機。青い空。白い雲。風鈴。スイカ。コップ。麦茶。蚊取り線香。金魚。猫。夏休み 」としました。

多くの要素を実現しようと頑張った跡が感じられますが、棒に刺さったスイカなど現実には無いような不自然さが目立ちました(面白いですが)。また、かねてから生成AIが苦手としている手や指の表現はやはり厳しく、手の形や指の本数がおかしくなっていました。

同様に要素を盛り込んで、「 日本の可愛い少女。アニメ風に。ツインテール。頭にリボン。制服を着ている学生。全身。街の中。雨が降っている。傘を差している。スマホを持っている。通行人がたくさんいる。後ろに車が走っている。こちらを見ている。猫のぬいぐるみを持っている 」としてみました。

生成された4枚を見ると、反映されていないプロンプトの要素もいくつかあることがわかりました。また「全身」と入れても、ここではなぜか全身は出てきませんでした。そして、よく見るといろいろ変なところが目立ちます。傘を手で持っておらず、背中に着いているように見えます。左上は傘の柄もありません。こちらも特に手指は正確さを欠いています。

Fireflyは、ケースにもよりますがプロンプトの要素が多すぎると不自然さが増すようで、ある程度シンプルにした方が思った画像を出力できる可能性もありそうです。

今度はコンテンツタイプを「写真」にして、「 ナマケモノをカメラで撮影する日本の女の子 」で生成してみました。

人物、カメラ、ナマケモノのいずれも不自然さがすごいことになっています。プロンプトをどう解釈したのかわかりませんが、顔がナマケモノになっているものもありました。想像とあまりにも違って、「これはこれで面白い!」という結果です。ポジティブに受け止めれば、新しい表現のヒントが得られたという感じでしょうか。

実用的なグラフィック素材の出力を試みる

続いてはストックフォトサービスにありそうな画像が生成できるのかを試してみました。「 日本のオシャレなオフィスで働いているスタッフ 」というプロンプトでは、よくあるオフィスのイメージが生成できました。しかし、やはり手指の生成が上手くいっていないのに加えて、ほかにも不自然な箇所がいくつか見て取れます。

次もストックフォトでよく見かけるイラストを想定して「 株価の上昇をイメージしたグラフィック 」で生成してみました。少々おどろおどろしい作風になっていますが、イラストとして使えないことも無いでしょうか。もう少しプロンプトを研究する必要はありそうです。

次は「 ネットワークをイメージした写真素材 」と入力してみました。シンプルなプロンプトながら、こちらはそのまま素材として使えそうなクオリティです。こういった素材が簡単に作れれば実用性は高そうです。こうした抽象的なものは、人物などよりも生成が得意なようです。

これもグラフィック素材を想定して、「 生命科学をイメージしたグラフィックを描いてください 」というプロンプトで出力したものです。生物的な要素がなんとなく描かれていて、挿絵のような使い方ならありではないでしょうか。ここでは「シンセウェーブ」というスタイルを選択しました。色使いが綺麗です。

「スタイル」については、ポップアート、鉛筆画、油絵、アンティーク写真、大理石など63種類も用意されています。右側のボタンで選択すると適用されます。こうした機能をワンクリックで提供するのは、グラフィックソフトを手がけるAdobeらしいところだと感じました。

スタイルの一部

ロゴを作れるか? というテストです。「 『こんにちは』のロゴを作って下さい 」と入力しました。生成物に日本語は出ないようで、アルファベットになるようです。ただ、「Hello」と出力したかったのだと思いますが、意味不明な文字列になっていました。英語のプロンプトでも試しましたが、あまり変わりません。Adobeでは「文字の出力はまだサポートしていない」としているので、文字を伴った出力は現時点では難しそうです。

次もストックフォトにありそうな時事ネタの素材ということで、「 地球温暖化を表現してください。暑そうなイメージで 」と指示してみました。どれも地球が燃えており、深刻さが表現できていることからイメージカットとして使えそうです。ただ、やはり文字列は苦手なようです。

ドット絵も簡単に作れました。プロンプトは「 コンピューター、古い、ドット絵 」です。これもイメージカットとしては十分使えるイラストになったと思います。

SFテイストのイラストが得意

続いては現代の世界には無いようなものを出力してみました。プロンプトは、「 昔の東京の風景を描いてください 」。コンテンツタイプは「写真」を指定しましたが、イラスト調になっています。こんな風景があったような無かったような不思議なイメージです。正確さは期待できないでしょうが、こうして架空の街を見てみるのも面白そうです。

今度は逆に「 未来の東京 」と指示してみました。すると、しばしば見かけるSFイラストの作風になりました。看板の文字は意味不明ですが、どことなく東京の感じはします。左下のタワーは東京タワーが建て替えられたのか、新しくできたタワーなのか、などと想像をかき立てられます。

SFチックな絵が得意そうな感触を得たので、プロンプトに「 SFに登場するコンピューターと、それを使う生き物 」と入れてみました。するとなかなか完成度の高いイラストができあがりました。

一部、機械類が曲がっているなどはあるものの、光もドラマチックで映画のような雰囲気です。おそらく、こういった作風の絵を多く学習できているからなのでしょう。

プロンプトに何かの文章を入れたらどうなるのかと思い、青空文庫にある宮沢賢治作「ポラーノの広場」の一節「 あのイーハトーヴォのすきとおった風、夏でも底に冷たさをもつ青いそら、うつくしい森で飾られたモリーオ市、郊外のぎらぎらひかる草の波 」をプロンプトにしてみました。

写真としてやや不自然な部分はあるものの、まさにこの一文にふさわしい爽やかな風景が描かれていました。文学作品や有名なセリフを入れて、AIがどう解釈するのかを見るのも興味深いことです。

さて、文学ついでにもうひとつ。フィリップ・K・ディックの小説のタイトル「 アンドロイドは電気羊の夢を見るか? 」をプロンプトにしてみました。このタイトルはいろいろなパロディにもなっていて、作品を読んだことが無くても知っているという人も多いと思います。

アンドロイド(人型ロボット)と、ヒツジやその要素が象徴的に描かれていました。どこかもの悲しそうなロボットには人格があるような雰囲気です。小説の中身との合致はともかく、特に左上は本の表紙に使えそうなくらいのレベルに感じました。

次はズバリ、「 宇宙の姿を描いてください 」。果たしてどんな画像を生成するのか? とワクワクしながら待ちました。出てきたのは、可愛らしさのあるイラストでした。抽象画風でもあり、額装して飾っても映えそうな出来です。

このパートの最後は、少々突飛な「 1億年後の地球は? 」というプロンプト。筆者はちょっと想像できませんが、未来的な地球? の姿が出てきました。

通信網なのかエネルギー網なのかわかりませんが、地表の周りに何か殻のような構造があるのがAIが考える1億年後のようです。「シンセウェーブ」を選んでいるので、80年代風のグラフィックなのがまた面白いですね。

プロンプトもAIに作ってもらう

ところで、このように画像を生成していると面倒なのがプロンプトを考えること。自分の思いつきにも限界があるので一苦労です。そこで、プロンプトもAIに考えてもらうことにしました。

使用したのは、もはやおなじみとなっているOpenAIの「ChatGPT」です。今回は無料版(GPT-3.5)で、プロンプトを提案してもらいました。見てみると、人間ではなかなか思いつかないような組み合わせのプロンプトが並んでいます。

ChatGPTが提案したプロンプト

Fireflyのプロンプトは文章形式でも良いので、ここではChatGPTの文章をそのままコピーして生成しました。1つめは「 鏡の向こう側には異なる世界が広がっています。あなたの反対側の世界にはどんな風景が広がっているでしょうか? 」。

しっかりと「鏡の向こう」という部分を理解した作画で驚きです。手前の世界も描かれていて、よくできていると思いました。例によって人物の描写はもうひと頑張りしてほしいところですが、世界観の作り方には感心します。

次は、「 逆襲する野菜たち! 野菜が生き生きとしたキャラクターになり、人間に立ち向かっている様子を描いてください 」というプロンプト。これもなかなか思いつかない設定ですが、Fireflyは見事にイメージ化しました。手指など人体ほど細かい部分が気にならないせいか、まるで絵本に登場していそうな完成度ではないでしょうか。

続いてもちょっとびっくりです。プロンプトは、「 時間旅行者のコレクションルームをイメージしてください。未来や過去から持ち帰った不思議なアーティファクトが展示され、見るものを驚かせる展示物を描いてください 」。

人物の描写が怪しいことを除けば、やはり世界観の表現は文句なしと言えそうです。展示品も、「この時代には無いものばかりなのだろう」という見せ方ができていると思いました。

次です。プロンプトは「 『和風スチームパンク』のキャラクターをデザインしてください。伝統的な日本の要素とスチームパンクの要素が融合したキャラクターを描写してください 」です。

「和風」と「スチームパンク」という方向性が異なるテーマですが、見事に要素が融合しています。このようにプロンプトをAIに作ってもらうと思いもしない世界を見ることができるので、非常に面白い体験になりました。

以上プロンプトは全て日本語で入力したわけですが、意外としっかり意味が伝わっているようでした。現在人気の画像生成AIであるStability AIの「Stable Diffusion」もノーマル状態で日本語は受け付けますが、試してみると英語に比べて今ひとつ伝わらない印象です。日本語の理解度という点では後発ながらFireflyに軍配が上がりそうです。

既存の画像をAIで編集できる

Fireflyにはここまで試した「テキストで画像作成」のほかに「生成塗りつぶし」という機能もあります。これは既存の画像に対して、一部のオブジェクトを削除したり新しいオブジェクトを追加する機能です。削除した部分の作画や、追加されるオブジェクトの作画がAIで行なわれています。

Fireflyの画面で「生成塗りつぶし」を選び、元となる写真などをアップロードします。今回は一部のビルを消して、UFOを追加してみます。

写真をアップロードしたところ

左のメニューで「削除」を選んで右のビルをなぞります。そして下にある「削除」を押すとビルが綺麗に消えて、青空になりました。

消したいビルをなぞったところ
ビルを消すことができました

続いて左のメニューから「挿入」を選び、下のメニューの「背景」を押すと自動的に背景が選択されます。この選択範囲が新しいオブジェクトを入れる場所になります。

背景を選択したところ

オブジェクトの挿入では、「新しいオブジェクトを選択範囲にフィットさせるか」や「元の写真を維持する度合い」、「プロンプトへの忠実度」が設定できます。今回は初期設定のまま使いました。下のテキストボックスに「UFO」と入れて「生成」を押すとUFOが飛来した画像ができました。

UFOのオブジェクトが挿入された

この生成塗りつぶしは20秒ほどかかりますが、同時に4枚を生成できます。ここで良いものを選ぶか、さらに生成を続けることも可能です。完成画像をダウンロードした画像にはFireflyのロゴが入ります。こちらもベータ期間中なので商用利用はできません。

ダウンロードした完成画像

特定のオブジェクトを消去する機能はすでにPhotoshopでは実用化されていますが、生成AIと組み合わせられたことで新しい創作に繋がるのではないかと思いました。

詳細は割愛しますが、Fireflyにはこれら以外にも生成したテクスチャを文字列に貼り付ける「テキスト効果」(ベータ版期間は商用利用不可)やベクター画像のカラーバリエーションを生成する「生成再配色」(商用利用可)という機能もありますので、興味のある人は触ってみてください。

テキスト効果の例。プロンプトに基づいて容易に装飾を施せる

コンテンツ認証イニシアチブの履歴機能に対応

Fireflyは、「AIが制作した」という履歴が画像に記録されるのも特徴です。Adobeが中心になって設立した「コンテンツ認証イニシアチブ」(CAI)の履歴機能に対応しているので、CAIのWebサイトで画像の履歴を確認できます。

さっそく試してみます。下の画像はFireflyで生成した画像をダウンロードしたものです。プロンプトは、ChatGPTが提示した「 時間旅行する装置を使って、過去の歴史的な場面を訪れる絵を描いてください。有名なイベントや重要な人物が含まれると面白いです 」を使いました。

ダウンロードした生成画像

そしてこの画像をCAIが運営している「Verify」にアップロードすると履歴が表示されます。作成日をはじめ、AIで制作されていることや使用したツールがFireflyであることも記録されていました。このコンテンツ認証システムはPhotoshopにはベータ版として導入されており、例えば編集にAIツールを使った場合はそれが履歴として記録されるということです。

Verifyにアップロードして履歴を表示したところ

今後の進化でパワフルなツールになりそう

テキストからの画像生成を中心にざっとFireflyを使ってきましたが、「結構使えるな」と「まだまだ」が半々といった印象を持ちました。SFやファンタジー、抽象的な作画は得意ですが、人物や写真はどちらかというと苦手というのがはっきりしていました。

先行している他社の画像生成AIは、フォトリアリスティックな人物に関しても苦手とされてきた手指の表現を含めてかなり自然に生成できる段階にあります。一方Fireflyの人物の不自然さは、ちょうど画像生成AIが話題になり始めた頃の懐かしい感じを思い出させるものでした。

Fireflyは学習セットが権利関係に配慮した画像のため、学習枚数がほかより少ないのが影響している可能性はあります。FireflyはAdobe Stockでの学習分が1億枚以上だそうですが、Stable Diffusionはもう一桁上です。生成AIは「量をもって質と成す」の部分があるので、この点は仕方のないところかもしれません。

プロンプト「画像生成AIが画像を作っているところ」で出力したもの。指も5本あり、もう少し自然だと実用になるレベルでしょう

他方で生成AIの技術の進歩はかなり速く、成果物のクオリティもどんどん上がっているように感じます。ですから、Fireflyも遠くないうちに弱点を克服できる可能性は大いにあるでしょう。

その上で、権利関係をクリアし暴力的や差別的といった問題のある画像を作らないという「安心・安全」は大きな武器になると思います。さらに、親切なユーザーインターフェースや実用的な日本語対応といった部分も考えると、群雄割拠の画像生成AIに一石を投じるサービスと言えるでしょう。正式版の公開が待たれるところです。

※本記事は、Fireflyで生成した画像を掲載する許諾をAdobeから得ています。

1981年生まれ。2006年からインプレスのニュースサイト「デジカメ Watch」の編集者として、カメラ・写真業界の取材や機材レビューの執筆などを行う。2018年からフリー。