ニュース

ChatGPTに強力な画像生成機能 正確で“実用的”

OpenAIは、GPT-4oに最新の画像生成機能(4o Image Generation)を追加した。「ChatGPT」のデフォルトの画像生成機能として提供が開始されており、Plus、Pro、Team、無料のユーザー向けに展開される。EnterpriseとEduも今後対応する。動画生成のSoraでも利用できる。開発者向けのAPIは今後数週間以内に提供される。

精度とパワーを備えた実用的なツールへ

綺麗なだけでなく正確で「実用的」であることを全面的に打ち出した最新の画像生成機能がGPT-4oに組み込まれ、「ChatGPT」で利用できるようになった。

既存の生成AIによる画像生成は、シュールな画像や美麗なシーンを生成できるものの、正確さに欠けたりナンセンスだったりするため、情報伝達・共有などで実用的に使おうとすると、生成のハードルが高い状況だった。

GPT-4oに搭載された最新の画像生成機能は、プロンプト(生成の指示)を正確に反映でき、画像内テキストも正確に表示、「思い描いた通りの画像を簡単に作成できる」と謳う。開発過程においては、画像と言語の関係や、画像同士の関連についても学習したことで、(ChatGPTの会話の中で)一貫性のある内容を保ち、文脈を認識した、役に立つ画像を生成できるとする。

「ChatGPT」のチャット画面におけるプロンプトと画像生成の様子。ホワイトボードの内容もプロンプトの指示が反映されている。2枚目は1枚目の内容を引き継いでいる
テキストを正確に反映

詳細なプロンプトに追従でき、従来の画像生成AIの倍近い、最大10~20個の異なるオブジェクトを配置可能。ユーザーがアップロードした画像を分析・学習して画像生成に反映させることもできる。イラストからリアルな写真風まで、さまざまなスタイルの生成・変換に対応する。

OpenAIによるサンプル画像。プロンプト:A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel. (プロンプト訳:カール・マルクスがモール・オブ・アメリカの駐車場を急ぎ足で歩いている、パパラッチ風の写真。彼は撮影を避けようと、驚いたような表情で肩越しに振り返っている。複数の高級品が入った光沢のあるショッピングバッグを抱えている。コートは風になびき、バッグの一つは揺れている。動きを強調するために、車と光り輝くモールの入り口が背景にぼやけている。カメラのフラッシュが画像の一部を露出オーバーにし、混沌としたタブロイド紙のような雰囲気を醸し出している) ※マルクスは社会主義・共産主義に大きな影響を与えた19世紀の哲学者

同社は、ゲーム開発、歴史、教育などの分野でユースケースをサポートすると表明。透明性を反映する取り組みとして、生成されたすべての画像にはC2PAメタデータが埋め込まれる。一方で、有害なものとして、児童性的虐待資料や性的ディープフェイクなど、コンテンツポリシーに違反する可能性のある画像の生成はブロックされる。また、実在の人物の画像がコンテキスト内にある場合、作成できる画像の種類は制限され、特にヌードや暴力描写に対して安全対策が強化されている。