ニュース

OpenAI、テキストから1分の高品質動画を生成する「Sora」

清宮信志

2024年2月16日 12:50

OpenAIは、テキストから最長1分の動画を生成できるAIモデル「Sora」を発表した。現在は一部のアーティストやデザイナー、映画制作者らに提供されている。また、Soraがもたらすリスクを検証するため、OpenAIのレッドチームが検証を行なっている。

テキストから複数のキャラクターやモーション、被写体や背景等を正確に描写したシーンを作成できる。ユーザーがプロンプトで要求した命令だけでなく、それらが現実世界でどのように存在しているかも理解して動画を生成する。

また、生成された1つの映像内で、キャラクターやビジュアルスタイルを正確に保持した複数のショットも作成可能。

Prompt: "A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.…pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI)February 15, 2024

現在のモデルには弱点もあり、複雑なシーンの物理現象を正確にシミュレートする場合に破綻が起きることもある。例えば、人間がクッキーをかじった映像では、クッキーにかみ跡が残らない可能性がある。左右を間違えるなど空間的な解釈を混同してしまうこともあり、物理的にありえない動作や、多くの動物などが入り乱れるシーンでは、何もない空間から突然動物が現われたりすることがある。

安全性については、OpenAIで誤った情報やヘイトを増長するようなコンテンツに対して対策を行なう専門家であるレッドチームが検証を実施。映像がいつ生成されたかを知ることができるようにするなど、誤解を招くコンテンツの検出に役立てるツールを構築する。将来の製品版では、画像データなど、デジタルコンテンツの来歴記録技術に関する国際標準化団体である「C2PA」のメタデータも含める予定。

DALL-E3と同様の安全対策も適用されており、極端な暴力、性的コンテンツ、嫌がらせ、有名人の肖像やIPを要求するなど、ポリシーに違反するテキスト入力は拒否される。