トピック
アドビに聞く「Firefly」の今 「生成編集」のためのAIと「商業利用」の価値
2024年10月30日 08:20
アドビが独自の生成AI「Firefly」を発表したのは2023年2月。それから1年半しか経っていないが、同社製品は一気にFirefly一色になった。
生成AIでは多くの競争が起きている。ただ皆がまったく同じベクトルで進んでいるかというと、そうでもない。なんとなく同じ方向を向いているが、進む方向がかなり違うようにも思える。
アドビは、そんな「技術のベクトルは同じだが進む方向が違う」企業の一例だと思う。
先日マイアミで開催されたAdobe MAXにて、同社のFireflyに関するキーパーソン2人を取材できた。
1人は、FireflyやAdobe Senseiを担当する同社バイスプレジデントのAlexandru Costin氏。
そしてもう1人が、同様にFireflyを手掛ける、プロダクトマネジメント担当バイスプレジデントのZeke Koch氏だ。
ここでは二人のコメントから、Fireflyの現在と進む方向を考えてみよう。まだ公には語られていない、新しい方向性がいくつも見えてくる。
生成より修正 クリエイターの「編集」ニーズ
前出のように、現在アドビの戦略の中核にはFireflyがどっかりと根を下ろしている。その戦略概要や新技術については、以下のレポートでも解説している。
では、現状の利用状況や方針はどうなっているのか? Costin氏は次のように述べた。
Costin氏(以下敬称略):2023年3月に Firefly Image Modelを立ち上げて以来、130億枚以上の画像が生成されました。
そのうち70億枚がPhotoshop内で使われ、ほとんどが編集用途です。
私たちは、生成AI(Generative AI)を、まず「生成編集」(Generative Edit)ジェネレーティブエディットと考えています。実際、生成される画像の大部分は、実際にはお客様が当社のツールで編集したものです。
これはわかりやすい方針だろう。
画像などを生成するサービスは多々あるが、そこから出力されたものを「そのまま使う」例は意外と少ない。ニーズにあったものを作るには試行錯誤が必要だし、編集も必須。商業的に使うなら、関わる人々の間での精査も必要になる。
同社にはPhotoshopなどの強いクリエイティブツールがある。その中から簡単に修正・編集に使えるならそれに越したことはない。
Koch氏はさらに詳しく説明する。
Koch:私たちは、クリエイティブなプロフェッショナルに何ができるかを考えることに、多くの時間を費やしています。私たちは多くの時間を話し合い、彼らが生成AIになにを求めているのかを理解したいのです。
おそらく、彼らが求めているのは3つのことです。
1つ目は、毎日ずっと使うツールにパワーが欲しい、ということ。最初に考えたのは、生成AIの力をPhotoshopや他の製品に持ち込むことができるか、ということです。
そのために必要なのは、なにもないところから何かを作り出すのではなく「そこにあるものを修正すること」だと考えました。
すなわち、そのドキュメントにあるすべてのものからコンテキストを取得し、生成AIで活用する必要があります。
そして2つ目は、ご存じの通り、当社のお客様のほとんどが何らかの専門家であるということです。
彼らは仕事をすることで報酬を得ているので、自分たちが生み出すコンテンツは、商業的に安全であるように設計され、自分たちが使用できるものである必要があります。
私たちは、他人の知的財産を偶然に含んでしまわないようにしたいのです。私たちは、生成AIの訓練に使ったコンテンツについて、法的権利を持っています。
そして3つ目はコントロール。デザイナーやクリエイティブなプロフェッショナルは、アウトプットの品質に強い関心を持っています。
私たちは長い時間をかけて検討した結果、人々が文章によるプロンプトのようなものだけでなく、参照画像などで、生成する画像に影響を与えられるようにしました。
これらの発想はアドビだけが持っているものではない。しかし、ツール群の中にすでに実装し、クリエイターが日々使える状態になっているのは大きなことであり、アドビの強みになっている。今回Adobe MAXで公開されたツール群でのAI活用もこの基本方針に倣っている。
今回「動画」への対応が発表されたが、これもクリエイターの利用状況を考えてのものだ。動画制作者がまず困るのは「編集中に尺が足りないこと」であり、素材をゼロから作ることではない。だからPremiere Proでは「ビデオの尺を2秒伸ばす」ことに特化している。
その理由として生成にかかる時間や演算力との関係もあるが、重要なのは「キャラクターやシーンの一貫性」(Costin氏)だ。すでにある動画の尺を伸ばすなら、その動画を解析して一貫性維持に使うことができる。ゼロから映像を生成するより質が良くなり、クリエイターの要望にも叶う。
以下の動画は筆者が作ったもの。生成部分は完璧な品質ではないが、「それっぽく尺が伸びている」のはわかるだろう。
音声の生成に新しい可能性を
では、映像生成の次に来るモデル、重要だと考えているものはなにか? アドビの答えは明快。「音声」だ。
Costin:ビデオを生き生きとさせるためには、音声のことを考える必要があります。
誰かがゆっくり歩いているときには、それに相応しい音が聞こえるべきです。
ですから私たちは、そうした音声を生成するモデルの開発に取り組んでいます。
ビデオの拡張生成と同時に、バックグラウンド音声の拡張機能を搭載しました。
確かにこれは納得できる。
Koch氏は「ネタバレはしたくないのですが……」と言いながら次のように語った。
実は彼とのインタビューは、アドビが開発中の技術をチラ見せする「Sneaks」の直前に行なわれていた。Sneaksでは複数の「今後のFirefly活用につながるプロジェクト」が発表されていた。その中でも重要な要素だったのが「音声」と「3D」だ。
Koch:Premiere Proでは背景音の生成拡張ができますが、そのほかに「あらゆる効果音を生成する」プロジェクトが進行中です。要はビートボックスのような感じでどんな映像にも効果音をつけていけます。
3Dについても、Sneaksで新しい技術が発表されますよ。
Koch氏が予告したプロジェクトとは「Project Super Sonic」と「Project Turntable」だ。
Project Super SonicはKoch氏の説明通り、Fireflyのオーディオ生成モデルを使って効果音を作るものだ。
「Project Super Sonic」はまさにその部分をカバーするものだ。
もっともシンプルな使い方は、動画に合わせて「小川が流れる森」といったプロンプト・テキストで指示する方法。だがさらに、画像から別の映像を生成するように、動画に含まれる内容とプロンプトを連動して生成させることもできる。
「仮音」、すなわち人が効果音をまねたものからの変換も可能だ。これが、Koch氏のいう「ビートボックスがサウンドエフェクトになる」機能だ。今回はモンスターの鳴き声や羽ばたき音を「ブオーン」という感じで口で再現して録音し、それを参考に生成AIが「リアルなモンスターの鳴き声や羽ばたき」に変換する。
3D生成が絡んでいるのが「Project Turntable」だ。
これは平面に描かれたイラストから、「それを立体として捉えて回転させた絵を生成する」もの。
文章だと分かりづらいが、以下の動画や写真をご覧いただきたい。
1枚の絵からどんな方向へもくるくる回し、さらにIllustrator形式のベクターデータになるさまは、まさに魔法のようだ。
これらSneaksで発表された技術は、製品化されるかどうかも、そのタイミングも決まっていない。しかし、昨年公開された「Project Neo」は順調に開発が進み、今年のMAXで一般へテスト公開されている。そう考えると、これらの技術も遠くないうちに、同社のクリエイティブツールに組み込まれていくことになるのかもしれない。
「商業利用可能な生成AI」のための基礎原則とは
アドビのFireflyは「商業利用可能な生成AI」であることを強くアピールしている。
学習には同社のデータストックサービスである「Adobe Stock」で、著作権がクリアーされていてAIの学習を許諾したものと、著作権が切れたものを含むオープンなコンテンツが使われているから……というのが同社の主張だ。
もちろん、それだけで100%「他に似たものは出てこない」と断言できるものではない。しかし、利用時に類似性などを確認しながら使う性質のものであり、「あきらかに問題がある」ものはその段階で排除できる。気付かずに著作物に似てしまう例はAIが絡まなくても存在する。その上で危険性は減らす、というのがアドビの採っているやり方だ。
今回のAdobe MAXでも、
- 許諾を得ない限りコンテンツをAIの学習に使わない
- (学習などに使われる)Adobe Stockへの登録クリエイターには対価を支払う
- 顧客のデータからAIの学習をしない
- ネットを探し回ってコンテンツを集めない
という4つのアプローチ原則が示された。
問題は、その上で「良い学習データはどうやって集めるのか」という点だ。
Koch氏はその点について、以下のように説明する。
Koch:基本的には、企業と法的契約を結んでおり、その企業からデータ利用のライセンスを取得しています。これらのデータ利用については、AIのトレーニングに使用することを明示的に伝えています。音楽やサウンドエフェクトなどを持つ企業とパートナーシップを結んでいるわけです。
基本的に、私たちがAIの学習に使うライブラリーは、Adobe Stockにある画像とビデオの両方、そして著作権フリーのデータです。
他の資産についても人々と特別な契約を結んでおり、それら学習用データを、責任を持って管理するチームがあります。
彼らは、さまざまな場所から学習用コンテンツを調達することに集中しています。
つまり、学習に向いたデータを持つ人々とのライセンス締結も行なっているわけだ。
AIのコストと使い勝手はつながっている
生成AIの利用が増えていくと、課題になるのが「コスト」と「処理の重さ」だ。
生成AIをちゃんと使おうとすると、無料のものではなくサブスクリプションへの加入が必要になる。アドビの場合にも、Adobe Creative Cloudの利用料に加え「生成クレジット」が必要になる。Creative Cloudの中に一定額が入っていること、テスト中の機能には適用されないことなどから、現状あまり負担感はない。
しかし、動画を含め、今後さらに負荷が高い生成タスクが増えると、コストの問題が出てくる。これは利用者としての課題であると同時に、事業者であるアドビにとっても課題であるはずだ。
まず利用負担の面について聞いてみた。
Costin:現在、Creative Cloudでは、大多数のユーザーが好きなだけ生成できるように、生成クレジットをたっぷりとバンドルする方向性で行こうと考えています。
コストを下げるには、新しいモデルアーキテクチャを導入し、高速化する必要もあります。より速く、より安価に、アドビとユーザーの両方にとってプラスになる方向性での技術革新が研究中です。
どちらにしても私たちの目標は、サブスクリプションにできるだけ多くの価値をバンドルすることです。しかし、さらに追加コストが必要になる場合も出るでしょうが、まだそれは先の話です。
効率を上げるための戦略はいくつかあります。
さまざまなシリコンプロバイダーから、より優れたシリコンが出てきています。私たちはNVIDIAと緊密に連携しています。また、Amazonなどともパートナーシップを結んでいます。彼らから提供される複数の、最新のプロセッサーを使うことも、1つの方法です。
次に、モデルの改善。「蒸留(Distillation)」と呼ばれる手法があり、モデルを最適化してより速く生成します。
そこで私たちは、「高速」と「通常」の2つのオプションを提供します。
アイデアを素早く出したいなら、品質に対するわずかなペナルティがあるかもしれませんが、高速モードを使えばいいでしょう。Firefly Image 3の最新バージョンの高速モードは、以前の4倍速くなっています。
通常モードも用意していますが、これはモデルをどう蒸留したか、ということに基づく別のモードです。
高速モードでは、ユーザーが結果をより速く取得すること、生成を最小限に抑えてクラウドでGPUを浪費しないことで、アドビがコストを制御できます。
Koch氏は今後の流れをさらに詳細に説明してくれた。
Koch:ますます高品質の画像、ますますフォトリアリスティックな画像を求めてられていて、そのためにはますます多くのコストがかかります。
ただ、我々としても費用を単純にあげたいとは考えていないのです。私たちが狙うのは、ユーザーにとってより質の高い結果を提供したい、ということです。
ただ、推論コストは作成にかかる時間に比例します。
同時に、(絵を出力している)デザイナーも焦っています。
したがって、アイデアをすばやく探求したい場合は、実際には、まったく同じ品質ではなく、より出力が高速なプレビューモードがあるわけです。実際、一度高速なモードを使ってしまうと、遅いものには戻れません。
多くの会社は「高速モード」のために特別なモデルを用意しますが、Fireflyは違います。少ないピクセルかつ、より少ない推論ステップを使用して画像をより迅速に生成しています。
「高速モード」はWebから利用できて、Photoshopから利用する場合には現状、Web版ほど速くはありません。企業がAPIから使う場合にはさらに柔軟性があります。Web版では最高品質と最速の2パターンを提供しており、Photoshopでは、真ん中のものともっとも高画質なものを使用しています。
私たちがまだリリースしていない「Image 4 Model」では、(推論を)4ステップまたは20ステップから選べるように模索しています。最初の数ステップでは品質が大きく変わるのですが、推論を積み重ねても成果があまり変わらないところに到達します。我々の検討の中では、画像については20ステップを大幅に超える必然性はないのでは……と、現状では考えているところです。
作業のためには素早い反応が重要だ。Web版のFireflyに搭載された「高速モード」は、確かに試行錯誤にはプラスだと感じる。それが生成クレジットの節約とバックエンドの推論演算コスト節約につながっている、という事情も面白い。
以下の画像で示すように、小さな解像度で試行錯誤したあと、採用候補だけ解像度をアップする、という使い方は確かに実情に合っている。今後のイメージモデルでは推論段のステップを増やしていき、そのステップ数でコントロールする、という方向性であるようだ。
どちらにしろ、推論と学習には大量の演算資源が必要だ。Costin氏のいうとおり、アドビはAmazonをはじめとした複数のクラウドプロバイダーと協業しており、複数のインフラに分割して処理を行なっているという。
そこでは多数のGPUが必要になる。しかし、大手IT企業の間ではGPUの取り合いが起きている。アドビは十分なGPUを確保できているのだろうか?
Koch氏は笑いながらこう答えた。
Koch:複数の企業と協力して対応していますが……正直なところ、「自分たちが十分だと思えるだけのGPUをすでに持っている」と思ったことはないですし、そう思っている人はどこにもいないんじゃないでしょうか。
GPUが余っている、十分だという人がお知り合いにいるようなら、ぜひ教えてください(笑)。