ニュース

Google DeepMind、操作可能で一貫性を保つ3Dワールドモデル「Genie 2」

佐々木翼

2024年12月5日 17:04

Google DeepMindは4日、大規模な基盤ワールドモデル「Genie 2」を発表した。Genie 2は、画像を入力して3D環境を生成し、キーボードやマウスを使って直接操作可能なモデル。この技術により、AIや人間が仮想世界でインタラクティブに行動できる環境を構築できる。

前モデル「Genie 1」が2D環境の生成に特化していたのに対し、Genie 2ではリアルな3D空間を作成可能となり、AIや人間の行動をより直感的に模擬できるよう進化した。同モデルは、大規模な動画データセットを用いて学習された「自己回帰性潜在拡散モデル」に基づいており、以下のような特長を持つ。

三人称視点、一人称視点、アイソメトリックビューなど、多角的な視点で環境生成できる
視界から外れたオブジェクトや場所を記録し、再び視界に入ると正確にレンダリングする
生成された仮想世界を最長1分間一貫して維持できる
オブジェクトの相互作用やキャラクターアニメーション、物理現象のシミュレーションなどが可能

最初は正面を向いている状態(左上)で、視点を下に向けたあと(右上)、再び正面を向いても(中央下)背景は維持される

上記のように、長期的な記憶能力、新しいコンテンツの動的生成、3D構造の作成、オブジェクトの相互作用、キャラクターアニメーション、物理現象のシミュレーション(重力、水、煙、反射、照明など)が可能。また、実世界の画像をプロンプトとして使用し、例えば風で揺れる草や川の流れといった自然現象も生成もできる。Genie 2では、最長1分間の一貫した”世界”を生成でき、大半のケースでは大半の例では10～20秒としている。

流体シミュレーション

プレイヤー以外にエージェントも生成

照明や反射の生成。鏡の反射も正しくシミュレーションされている

さらに、Google DeepMindが開発したAIエージェント「SIMA」との連携も可能。SIMAはGenie 2が生成した環境内で、自然言語による指示(例：「青いドアを開けて」「家の裏を探索して」)に基づき、キャラクターを操作してタスクを遂行。AIエージェントの適応能力を評価できる。また、クリエイターやゲーム開発者のプロトタイプ作成などにも活用できるとしている。

Genie 2は開発初期段階であり、今後も生成能力の一貫性、一般性の向上に取り組む方針。