トピック
ついにパソコンの操作方法も覚えたAI Claudeの「Computer use」を試した
2024年11月15日 08:20
AIチャットサービスのClaudeを展開しているAnthropicが、「Computer use」という機能を10月にリリースしました。ユーザーがテキストなどで指示した内容に従って、AIが自律的に判断し、パソコン画面をマウスカーソルやキーボードで操作するというものです。
2024年11月現在はβ版で、使い方もAPIを利用する方法のみとなっています。ただ、準備に少し手間はかかるものの、比較的簡単にComputer useを試す方法も用意されています。
今回はそのデモ環境の準備の仕方と、デモ環境においてComputer useがどんな風に使えるのかを紹介しましょう(本記事ではWindowsでの手順を説明しています)。
Computer useを試すうえでの注意点
Computer useについてはこちらの記事でも概要を解説していますので参考にしていただければと思います。
ここでも改めて簡単に説明すると、ユーザーが実現したいパソコン操作(具体的でなくても良い)をテキストでAIに問いかけると、AIがパソコン画面のスクリーンショットを逐次取得して画面内の要素を判断し、マウスカーソルやキー入力の操作をする、という仕組みになっています。いわゆるRPA(Robotic Process Automation)のようなものが可能になる、とも言えるかもしれません。
ただし、パソコン画面を自動で操作する仕組み、かつβ版ということもあり、たとえば実際に今使っているパソコンのデスクトップを直接操作させてしまうのは危険が伴います。問題のあるWebサイトに誤ってアクセスしてしまったり、重要なファイルを削除してしまったり、情報漏洩してしまったり……という可能性がゼロではないからです。
そのため、可能な限り機能を限定した仮想的なデスクトップ環境を構築し、そのなかで実行することをAnthropicは推奨しています。今回紹介するデモ環境も、Dockerという仮想環境ツールを利用する方法をとっています。
デモ環境のセットアップ手順
デモ環境を利用できるようにするまでの手順は、大まかには以下の通りです。
1. Anthropic APIを利用できるようにする
2. GitHubからデモ環境を取得する
3. Dockerを使ってデモ環境を起動する
4. Webブラウザーからデモ環境にアクセスする
Computer useはAPI経由での利用となるので、ClaudeのAIチャットサービスのユーザー登録や有料会員登録は不要です。ただ、APIの主なターゲットユーザーは基本的に会社などの組織となるので、利用前に組織としての情報登録が必須です。
ということで、手順をステップバイステップで説明していきましょう。
Anthropic APIを利用できるようにする
1. Anthropicの管理画面にアクセスしてログインします(既存のGoogle アカウントなどが使えます)
https://console.anthropic.com/
2. 組織の情報を入力して登録を完了します
3. 「Billing」ページから支払い情報を登録します
4. 今回はAPI利用料金としてひとまず10ドル追加しました
5. 「API keys」ページでAPIキーを生成します
6. APIキーをどこかにメモして、API利用の準備は完了です
GitHubからデモ環境を取得する
Computer useのデモ環境のプログラムやデータはGitHubというWebサイトに登録されています。GitHubからそれをダウンロードするか、Windows用アプリケーションのGitHub Desktopを使ってデータを取り込む(Cloneする)か、どちらか好きな方法を選んでください。
【GitHubからデータをダウンロードする場合】
1. プロジェクトページにある「Code」から「Download ZIP」をクリックします
https://github.com/anthropics/anthropic-quickstarts
2. ファイルを展開してわかりやすい場所に保存しておきます
【GitHub Desktopを使う場合】
1. GitHub Desktopをダウンロードし、インストールします
https://github.com/apps/desktop
2. GitHub Desktopを起動し、メニューの「File」→「Clone repository...」をクリック
3. 「URL」を選び、下記のAnthropicのプロジェクトURLを貼り付けて「Clone」をクリック
https://github.com/anthropics/anthropic-quickstarts.git
4. プロジェクトデータが取り込まれていることを確認して完了です
Dockerを使ってデモ環境を起動する
Dockerは仮想環境を作成・実行するためのツールです。ここでは詳しくは説明しませんが、ソフトウェアやOSなどを1つの「コンテナ」や「イメージ」と呼ばれる塊にまとめ、それをWindowsやmacOSなどの一般的なパソコン上で仮想環境として動作させることを可能にします。
Windowsの場合は「Docker Desktop」というツールをインストールすることでコンテナなどを扱えるようになります。下記の手順でインストールし、デモ環境を起動してみましょう。
1. Docker Desktopをダウンロードし、インストールします
https://www.docker.com/ja-jp/products/docker-desktop/
2. Windows Power Shellを起動して「docker」と入力し、コマンドの使い方が表示されることを確認します。エラーになるときはWindowsを再起動してみてください
3. Windows Power Shellで、先ほど取得したプロジェクトデータの「computer-use-demo」フォルダに移動します
4. 以下のコマンドを順番に入力し、実行します。「取得したAPIキー」は「Claude APIを利用できるようにする」の手順で取得したものです
1つ目のコマンド
$env:ANTHROPIC_API_KEY="取得したAPIキー"
2つ目のコマンド
docker run ` -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY `
-v $HOME/.anthropic:/home/computeruse/.anthropic `
-p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 `
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
Webブラウザーからデモ環境にアクセスする
以上の手順を終えると、デモ環境に必要なデータ類のダウンロードが始まり、少し待てばWindows Power Shellに「Open http://localhost:8080 in your browser to begin」と表示されて待機状態になります。
この「http://localhost:8080」にWebブラウザーからアクセスすれば、Computer useのデモ環境が表示されます。ページ右側には仮想環境のデスクトップ画面が見えるはずです。が、初回アクセス時にはもう1つだけ、ページ左側に書かれているように再度APIキーを入力する必要があります。これが終われば、晴れてComputer useを試せるようになります。
デモ環境はどんな風に使える?
デモ環境では、ユーザーがページ左側のチャット欄に入力したテキストを元に、AIがその意図を汲んでページ右側のデスクトップ画面を操作します。ページ右上にある「Toggle Screen Control」をクリックして「オン」にすれば、ユーザー自身でデスクトップ画面を直接操作することも可能です。
では、実際に使ってみましょう。まずは「Impress Watchっていうサイトを開いて」とチャットで指示してみました。すると、AIがデスクトップ画面のスクリーンショットを逐次取得して、具体的な処理の方法をチャット欄で説明しながら処理を進めていきます。
この例ではFirefoxのアイコンをクリックして起動し、URLを直で入力してImpress Watchのトップページを開きました。さらに、Impress WatchがどういうWebサイトなのかもチャット内で説明してくれています。
Impress Watchへの初回アクセス時はCookieの利用に関する説明が表示されるので、このままだとちょっと目障りです。なので「click "閉じる"」と指示してみると、見事に「閉じる」ボタンをクリックして表示を消してくれました。日本語も理解できるだけでなく、この表示がどういうものなのかもAIは把握している様子です。
さらに「最も新しい記事を開いて」というようにお願いすると、当日の日付の記事をクリックしてアクセスしてくれました。また、PDF出力ができるかも聞いてみると、Webブラウザーの印刷機能を使ってPDF出力しました。ちょっとしたTipsまで知っているのは驚きです。
将来性は感じられるが課題も大きい
以上のようにチャットでテキスト入力した指示を元にAIが画面操作してくれたわけですが、これはあくまでもデモ。Computer useがどのように動作するのか、というのがわかるようになっているだけで、こうした使い方ならそもそもユーザー自身で操作する方がはるかに早く、確実に目的を達成できるでしょう。
しかしこれをうまく応用すれば、音声入力で画面操作する仕組みなんかも考えられますし、パソコン操作に慣れていないユーザーがAIに操作を手助けしてもらう、というようなことも可能になるはずです。また、人間が眠っている夜の間に勝手に仕事を進めておいてもらうなど、まさに未来の働き方(サボり方?)も実現できるかもしれません。
しかしながら、β版ということもあり動作にはまだまだ課題がありそうです。単純な操作であってもミスすることがあり効率的ではない、というのもそうですが(AIが自分でミスしたことを理解してリカバリすることもあります)、一度に大量のトークンを消費してしまうことが大きな障壁のように感じます。おそらくスクリーンショットを都度解析するためでしょう。
たとえばImpress WatchをWebブラウザーで開くだけでも数万トークンかかります。AnthropicのAPIには利用制限が設けられており、ユーザー登録したばかり(Tier1)だと1分間に許容されるトークン数はわずか4万です。操作手順が多くなる内容だと1、2回チャットで指示すればあっという間に上限に達してしまい、やり取りが中断されてしまいます。
一定以上の課金や使用期間を経ることでこの制限は段階的に緩和されていくので、デモ環境を試すだけであっても、できればTier2(課金額計40ドル以上で8万トークン/分)やTier3(同200ドル以上で16万トークン/分)にはなっておきたいところ。それでも実用性という面では厳しそうですから、Computer use向けの新たな制限設定や、トークン数のかさまない手法が提供されることを期待したいところです。