ニュース
OpenAI、AIがブラウザ操作して人を代行する「Operator」
2025年1月24日 11:39
OpenAIは23日、AIがブラウザを操作し、タスクを実行するAIエージェント「Operator」を米国のChatGPT Pro(月額200ドル)ユーザー向けに公開した。研究プレビュー版として提供するが、ユーザーに代わり作業を実行するOpenAI初のエージェントとなる。
Operator(オペレーター)は、ユーザーに代わり、AIがWeb上でタスクを実行できるエージェント。独自のブラウザを使用してWebページを閲覧し、入力、クリック、スクロールなどの操作を行なう。研究プレビュー版として公開するため、制限があり、ユーザーからのフィードバックを受けながら改善していく。
用途としては、Webの入力や食料品の注文など、ブラウザ上で繰り返し行なうタスクの処理をOperatorに依頼。人間が使用しているのと同じインターフェースやツールを使用できるため、AIの有用性が広がり、人々の日常的なタスクに費やす時間を節約できるという。
Operatorは、Computer-Using Agent(CUA)と呼ばれる新たなモデルによって動作。GPT-4oのビジョン機能と強化学習による推論を組み合わせ、CUAはボタンやメニュー、テキストフィールドなどのWeb上のGUIとやりとりするように訓練されていいる。
Operatorは、スクリーンショットで「確認」し、マウスやキーボードの操作を使用して「対話」することで、ブラウザとやりとりする。カスタムAPIなどを使わずに、Web上でアクションを起せる点が特徴。課題に直面したり、ミスをした場合は、Operatorは推論能力を活用して自己修正できる。また、行き詰まり、支援が必要な場合は、ユーザーにコントロールを引き渡す。
実行したいタスクを指定すると、Operatorが残りの作業を処理する。また、ログインや支払い情報が必要な場合などは、ユーザーに操作を引き継ぐよう促す。
Booking.com上の航空会社の設定などに対して、カスタム指示を追加することで、Operatorのワークフローをカスタマイズ可能。Operatorでは、クイックアクセス用のプロンプトを保存できるため、Instacartでの食料品の再注文など、繰り返し行なう作業を覚えて再度実行できるようになる。
現在、DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uberなどと協力し、Operatorがルールを守りながら現実のニーズに対応できるよう作業を進めている。また、公共部門の申請などでの活用も想定し、ストックトン市などの組織と協力し、市が提供するサービスやプログラムへの登録を簡単にできるように取り組んでいるという。
安全な利用のため、常にユーザーが制御していることを確認し、重要なポイントでユーザーの入力を求めるようにトレーニングされている。ログイン認証情報や支払い情報など、機密性の高い情報をブラウザに入力する際、オペレーターがユーザーに引き継ぎを依頼し、「引き継ぎモード」となる。この場合、ユーザーが入力した情報を収集したりスクリーンショットを撮影することはない。
また、注文の送信やメールの送信など、重要なアクションを確定する前には、ユーザーの承認を求める。加えて、機密性の高い銀行取引や採用応募の決定など重大な決定が必要なタスクの場合は、Operatorがタスクを断るよう訓練されている。
Operatorは、米国のChatGPT Pro(月額200ドル)ユーザーから展開を開始し、欧州以外の多くの地域ではまもなく提供開始する。今後はPlus(月額20ドル)やTeam、Enterpriseユーザーにも展開予定で、これらの機能をChatGPTに統合していく計画。
ブラウザをAIが操作して、タスクをこなすという点では、AnthropicのClaudeに「Computer use」なども公開されている。