ニュース

ついにAIがPCを操作 Claude 3.5 Sonnetに作業自動化する「Computer use」

Anthropicは22日、AIモデル/サービス「Claude(クロード)」の最新モデル「Claude 3.5 Sonnet」をアップデートし、上位モデルの「Claude 3 Opus」と同等の性能をより低価格に実現するほか、新機能としてPCの画面をAIモデルが“見て”操作する「Computer use(コンピューターの使用)」を発表した。

Computer useは、ClaudeがPCの画面を確認しながら、カーソルを動かし、ボタンをクリックし、テキストを入力するなど、人と同じ方法でClaude(AI)にコンピューターを使用させるもの。パブリックベータとして22日からAPIで提供される。

デモ用動画では、以下のような文章をClaudeに入力している。

「Ant Equipment Co.」のベンダーリクエストフォームに記入してください。ベンダー スプレッドシート、もしくはウィンドウ 1の検索ポータル タブのデータを使用する。ウィンドウ 2 でフォームに記入するときに、各フィールドをリストして確認する。

すると、Claudeはまずスクリーンショットを撮影し、Ant Equipment Companyを照合するが、データがないため検索を実行。検索で照合された同社の情報を指定されたフォームに入力する。

プロンプトで作業を指示
スプレッドシートの情報などをClaudeが確認
検索結果から、情報をClaudeがフォームに入力

人間は、プロンプトで指示をし、結果を確認するだけで、スプレッドシートのチェックや検索、情報の転記などの“作業”を行なう必要がなくなる。足りない情報がない場合のみ作業を追加する形で、作業が終わってフォームを提出(Submit)するのは人間となる。

Claude | Computer use for automating operations

Computer useにより、反復的なプロセスの自動化、ソフトウェアの構築とテスト、調査などの自由形式のタスクの実行をAIに任せることを目指す。

ただし、Anthropicでは「現時点では、Claudeのコンピューター利用能力は不完全。スクロール、ドラッグ、ズームなど、人間にとっては簡単な操作がClaudeにとって課題となっている」と説明。利用者には、リスクの低いタスクから着手することを進めている。また、スパムや誤情報、詐欺などの、新たな脅威への活用を避けるため、コンピューターの使用や、被害の発生について識別する新たな分類法を開発したという。

Computer useは「まだ初期段階」であり、今後数カ月のうちに、急速な能力向上を見込んでいるという。同日に公開されたデモ動画では、Webサイトコーディングや友人とのサンフランシスコ観光のためのカレンダー・スケジュール作成などの活用を紹介している。

Claude | Computer use for orchestrating tasks
Claude | Computer use for coding

Claude 3.5 Sonnetを更新 Haikuも3.5で最上位を上回る

また、中核モデルの「Claude 3.5 Sonnet」をアップデートしたほか、「Claude 3.5 Haiku」も発表した。

Claude 3は、処理・理解能力の高さが特徴のAIモデルで、能力順に「Opus」「Sonnet」「Haiku」の3つのモデルが用意されている。中位モデルの「Sonnet」は先行して「Claude 3.5 Sonnet」が6月から提供されているが、この3.5 Sonnetがさらに更新され、特にコーディングの分野で大幅に進歩し、前世代のHaikuと同等の速度になった。

アップデート版のClaude 3.5 Sonnetでは、特にコーディングとツール使用タスクにおいて性能向上、SWE-benchではパフォーマンスが33.4%から49%に向上し、OpenAI o1-previewなどの推論モデルなどの、全ての公開モデルよりも高いスコアを記録したという。それでいて、従来バージョンと同じ価格とスピードを実現するという。

また、米国AI安全研究所(US AISI)と英国安全研究所(UK AISI)による、Claude 3.5 Sonnetの共同事前導入テストが実施され、安全性を確認している。

Claude 3.5 Haikuは、Claudeの高速モデルの次世代バージョン。Claude 3 Haikuと同等のコストとスピードで、全てのスキルセットを向上させ、多くのベンチマークにおいて、前世代の最大モデルであるClaude 3 Opusを上回るという。Claude 3.5 Haikuも特にコーディングタスクに強く、例えば、SWE-benchでは40.6% のスコアを記録し、従来のClaude 3.5 Sonnet や GPT-4o などの最先端のモデルを使用する多くのエージェントを上回る結果を出しているという。

3.5 Haikuは、低レイテンシや改善されたプロンプト実行、正確なツールの使用など、一般ユーザー向け製品、専門的なサブエージェントのタスク、購入履歴、価格設定、在庫記録などのデータからパーソナライズされた体験を提供するのに適しているという。Claude 3.5 Haikuは、当初はテキストのみのモデルとして提供し、その後、画像入力に対応する予定。10月末にAnthropicのAPI、Amazon Bedrock、Google CloudのVertex AIを通じて利用可能になる。