ニュース

Meta、高解像度動画を生成するAIモデル「Movie Gen」発表

Metaは4日(米国時間)、テキストのプロンプトから動画と音声を生成できるAIモデル「Movie Gen」を発表した。30Bパラメータのモデルで、最長16秒の動画を生成できる。開発中の技術として提供開始時期の言及はないが、Metaのマーク・ザッカーバーグCEOは「来年Instagramに搭載する」と投稿している

テキストのプロンプトで指示を出すと、高品質で高解像度の画像や動画を作成できるAIモデルで、1秒あたり16フレーム、最長16秒の動画を生成可能。モデルでは、物体の動きや相互作用、カメラの動きを推論し、妥当な動きを学習しているという。

公開されている動画では、子豚が透明度の高い水の中を泳ぎ回りながら、自然な陰影や水中に浮かぶ花やチリ、水底の石や苔などが自然に表現されており、後方を泳ぐ魚や、水上の草の奥行きなどにも違和感は無い。

同モデルを拡張し、パーソナライズされた動画の生成にも対応。人物の画像を入力し、テキストプロンプトと組み合わせることで、その人物とテキストプロンプトから得た視覚情報を含む動画を生成する。

編集にも対応。ビデオとテキストプロンプトの両方を入力として受け取り、出力。要素の追加、削除、置換のほか、背景やスタイルの変更などに対応する。最大45秒の音声生成にも対応する。

OpenAIの「Sora」など、動画生成AIの取り組みは各社において進められている。Metaでは、Movie Genの性能は、Runway Gen3、LumaLabs、Soraをを上回ると説明。詳細ページやホワイトペーパーも公開している。

加えてMetaでは、「(Movie Genは)アーティストやアニメーターの仕事を代替するものではない」と強調しており、「テクノロジーが人々を新たな方法で表現する手助けとなると信じている。将来、誰もが自分のビジョンを現実のものにし、Movie Genを使って動画や音声を制作できるようにする」と目的を説明している。また、モデルを公開する際には、悪用を防ぎ、ポリシーに違反する入力プロンプトや生成を拒否できるセーフティモデルの組み込みも必要としている。

今後、モデルを改善しながら、将来のリリースに向けた取り組みを進めるほか、映画制作者やクリエイターとの連携や、フィードバックを反映させていく計画。Metaのプロダクトへの応用では、「ある一日」の動画をアニメーション化してリール(Instagram)で共有する、テキストの指示を使って編集する、友人のためにアニメーションの誕生日挨拶を作成してWhatsAppで送信する、といった例を挙げている。

また、Movie Genを使ったと思われる、ザッカーバーグCEOのInstagramの投稿動画では、レッグプレスを行なうザッカーバーグ氏の衣装や背景が自然に置換されていることがわかる。