トピック

ついにパソコンの操作方法も覚えたAI　Claudeの「Computer use」を試した

日沼諭史

2024年11月15日 08:20

AIチャットサービスのClaudeを展開しているAnthropicが、「Computer use」という機能を10月にリリースしました。ユーザーがテキストなどで指示した内容に従って、AIが自律的に判断し、パソコン画面をマウスカーソルやキーボードで操作するというものです。

2024年11月現在はβ版で、使い方もAPIを利用する方法のみとなっています。ただ、準備に少し手間はかかるものの、比較的簡単にComputer useを試す方法も用意されています。

今回はそのデモ環境の準備の仕方と、デモ環境においてComputer useがどんな風に使えるのかを紹介しましょう(本記事ではWindowsでの手順を説明しています)。

Computer useを試すうえでの注意点

Computer useについてはこちらの記事でも概要を解説していますので参考にしていただければと思います。

ここでも改めて簡単に説明すると、ユーザーが実現したいパソコン操作(具体的でなくても良い)をテキストでAIに問いかけると、AIがパソコン画面のスクリーンショットを逐次取得して画面内の要素を判断し、マウスカーソルやキー入力の操作をする、という仕組みになっています。いわゆるRPA(Robotic Process Automation)のようなものが可能になる、とも言えるかもしれません。

ただし、パソコン画面を自動で操作する仕組み、かつβ版ということもあり、たとえば実際に今使っているパソコンのデスクトップを直接操作させてしまうのは危険が伴います。問題のあるWebサイトに誤ってアクセスしてしまったり、重要なファイルを削除してしまったり、情報漏洩してしまったり……という可能性がゼロではないからです。

そのため、可能な限り機能を限定した仮想的なデスクトップ環境を構築し、そのなかで実行することをAnthropicは推奨しています。今回紹介するデモ環境も、Dockerという仮想環境ツールを利用する方法をとっています。

デモ環境のセットアップ手順

デモ環境を利用できるようにするまでの手順は、大まかには以下の通りです。

1. Anthropic APIを利用できるようにする
2. GitHubからデモ環境を取得する
3. Dockerを使ってデモ環境を起動する
4. Webブラウザーからデモ環境にアクセスする

Computer useはAPI経由での利用となるので、ClaudeのAIチャットサービスのユーザー登録や有料会員登録は不要です。ただ、APIの主なターゲットユーザーは基本的に会社などの組織となるので、利用前に組織としての情報登録が必須です。

ということで、手順をステップバイステップで説明していきましょう。

Anthropic APIを利用できるようにする

1. Anthropicの管理画面にアクセスしてログインします(既存のGoogle アカウントなどが使えます)
https://console.anthropic.com/

2. 組織の情報を入力して登録を完了します

3. 「Billing」ページから支払い情報を登録します

4. 今回はAPI利用料金としてひとまず10ドル追加しました

5. 「API keys」ページでAPIキーを生成します

6. APIキーをどこかにメモして、API利用の準備は完了です

GitHubからデモ環境を取得する

Computer useのデモ環境のプログラムやデータはGitHubというWebサイトに登録されています。GitHubからそれをダウンロードするか、Windows用アプリケーションのGitHub Desktopを使ってデータを取り込む(Cloneする)か、どちらか好きな方法を選んでください。

【GitHubからデータをダウンロードする場合】
1. プロジェクトページにある「Code」から「Download ZIP」をクリックします
https://github.com/anthropics/anthropic-quickstarts

2. ファイルを展開してわかりやすい場所に保存しておきます

【GitHub Desktopを使う場合】
1. GitHub Desktopをダウンロードし、インストールします
https://github.com/apps/desktop

2. GitHub Desktopを起動し、メニューの「File」→「Clone repository...」をクリック

3. 「URL」を選び、下記のAnthropicのプロジェクトURLを貼り付けて「Clone」をクリック
https://github.com/anthropics/anthropic-quickstarts.git

4. プロジェクトデータが取り込まれていることを確認して完了です

Dockerを使ってデモ環境を起動する

Dockerは仮想環境を作成・実行するためのツールです。ここでは詳しくは説明しませんが、ソフトウェアやOSなどを1つの「コンテナ」や「イメージ」と呼ばれる塊にまとめ、それをWindowsやmacOSなどの一般的なパソコン上で仮想環境として動作させることを可能にします。

Windowsの場合は「Docker Desktop」というツールをインストールすることでコンテナなどを扱えるようになります。下記の手順でインストールし、デモ環境を起動してみましょう。

1. Docker Desktopをダウンロードし、インストールします
https://www.docker.com/ja-jp/products/docker-desktop/

2. Windows Power Shellを起動して「docker」と入力し、コマンドの使い方が表示されることを確認します。エラーになるときはWindowsを再起動してみてください

3. Windows Power Shellで、先ほど取得したプロジェクトデータの「computer-use-demo」フォルダに移動します

4. 以下のコマンドを順番に入力し、実行します。「取得したAPIキー」は「Claude APIを利用できるようにする」の手順で取得したものです

1つ目のコマンド

$env:ANTHROPIC_API_KEY="取得したAPIキー"

2つ目のコマンド

docker run ` -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY `
-v $HOME/.anthropic:/home/computeruse/.anthropic `
-p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 `
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Webブラウザーからデモ環境にアクセスする

以上の手順を終えると、デモ環境に必要なデータ類のダウンロードが始まり、少し待てばWindows Power Shellに「Open http://localhost:8080 in your browser to begin」と表示されて待機状態になります。

このような画面になっていれば準備完了

この「http://localhost:8080」にWebブラウザーからアクセスすれば、Computer useのデモ環境が表示されます。ページ右側には仮想環境のデスクトップ画面が見えるはずです。が、初回アクセス時にはもう1つだけ、ページ左側に書かれているように再度APIキーを入力する必要があります。これが終われば、晴れてComputer useを試せるようになります。

「＞」ボタンをクリック

「Anthropic API Key」に先ほどと同じAPIキーを入力してEnterキーを押し、「＜」をクリックして閉じる。これでComputer useが使える準備が整った

デモ環境はどんな風に使える?

デモ環境では、ユーザーがページ左側のチャット欄に入力したテキストを元に、AIがその意図を汲んでページ右側のデスクトップ画面を操作します。ページ右上にある「Toggle Screen Control」をクリックして「オン」にすれば、ユーザー自身でデスクトップ画面を直接操作することも可能です。

では、実際に使ってみましょう。まずは「Impress Watchっていうサイトを開いて」とチャットで指示してみました。すると、AIがデスクトップ画面のスクリーンショットを逐次取得して、具体的な処理の方法をチャット欄で説明しながら処理を進めていきます。

Impress Watchを開くように指示

具体的にどのような判断や操作をしているかを説明しながら処理が進む

Impress Watchにアクセスできた

この例ではFirefoxのアイコンをクリックして起動し、URLを直で入力してImpress Watchのトップページを開きました。さらに、Impress WatchがどういうWebサイトなのかもチャット内で説明してくれています。

Impress Watchへの初回アクセス時はCookieの利用に関する説明が表示されるので、このままだとちょっと目障りです。なので「click "閉じる"」と指示してみると、見事に「閉じる」ボタンをクリックして表示を消してくれました。日本語も理解できるだけでなく、この表示がどういうものなのかもAIは把握している様子です。

「閉じる」ボタンを押すように指示

ちゃんと日本語を理解して「閉じる」ボタンをクリックした

ページのスクロールの指示にも適切に対応

さらに「最も新しい記事を開いて」というようにお願いすると、当日の日付の記事をクリックしてアクセスしてくれました。また、PDF出力ができるかも聞いてみると、Webブラウザーの印刷機能を使ってPDF出力しました。ちょっとしたTipsまで知っているのは驚きです。

当日の日付の記事を開いたところ

英語がちょっと面倒になったので、チャットでのやり取りを日本語に切り替え

印刷機能からPDF出力するというテクニックも知っているようだ

「ネコを描いて」と指示するとオンライン上のペイントツールで味のある絵を仕上げた。仮想環境にはXPaintもインストールされているが、それを使わなかった理由は謎

将来性は感じられるが課題も大きい

以上のようにチャットでテキスト入力した指示を元にAIが画面操作してくれたわけですが、これはあくまでもデモ。Computer useがどのように動作するのか、というのがわかるようになっているだけで、こうした使い方ならそもそもユーザー自身で操作する方がはるかに早く、確実に目的を達成できるでしょう。

しかしこれをうまく応用すれば、音声入力で画面操作する仕組みなんかも考えられますし、パソコン操作に慣れていないユーザーがAIに操作を手助けしてもらう、というようなことも可能になるはずです。また、人間が眠っている夜の間に勝手に仕事を進めておいてもらうなど、まさに未来の働き方(サボり方?)も実現できるかもしれません。

しかしながら、β版ということもあり動作にはまだまだ課題がありそうです。単純な操作であってもミスすることがあり効率的ではない、というのもそうですが(AIが自分でミスしたことを理解してリカバリすることもあります)、一度に大量のトークンを消費してしまうことが大きな障壁のように感じます。おそらくスクリーンショットを都度解析するためでしょう。

たとえばImpress WatchをWebブラウザーで開くだけでも数万トークンかかります。AnthropicのAPIには利用制限が設けられており、ユーザー登録したばかり(Tier1)だと1分間に許容されるトークン数はわずか4万です。操作手順が多くなる内容だと1、2回チャットで指示すればあっという間に上限に達してしまい、やり取りが中断されてしまいます。

使い始めのユーザーだと特に制限が厳しく、数回やり取りするだけで上限に達しエラーに

Tier1ではトークン数は1分あたり4万まで

今回のテストだけで1日にトークン数が95万超。でも、かかった料金は1ドル余り

一定以上の課金や使用期間を経ることでこの制限は段階的に緩和されていくので、デモ環境を試すだけであっても、できればTier2(課金額計40ドル以上で8万トークン/分)やTier3(同200ドル以上で16万トークン/分)にはなっておきたいところ。それでも実用性という面では厳しそうですから、Computer use向けの新たな制限設定や、トークン数のかさまない手法が提供されることを期待したいところです。

日沼諭史

Web媒体記者、IT系広告代理店などを経て、フリーランスのライターとして執筆・編集業を営む。AV機器、モバイル機器、IoT機器のほか、オンラインサービス、エンタープライズ向けソリューション、オートバイを含むオートモーティブ分野から旅行まで、幅広いジャンルで活動中。著書に「できるGoProスタート→活用完全ガイド」(インプレス)、「はじめての今さら聞けないGoPro入門」(秀和システム)、「今すぐ使えるかんたんPLUS+Androidアプリ完全大事典」シリーズ(技術評論社)など。Footprint Technologies株式会社代表取締役。