Anthropic Claude Opus 4.5 が真のコンピュータ利用への期待を高める

Aisha Washington
9 時間前
読了時間: 15分

Anthropic は Claude Opus 4.5 をリリースし、カーソルの移動、ボタンのクリック、アプリへの入力が可能な新しいコンピュータ制御機能を追加した。このアップデートは、フォーム入力や画面上のファイル再配置など、かつて人間の手を必要としたタスクを対象としている。初期テストでは、モデルが継続的なプロンプトなしで簡単な一連の操作を完了できることが示された。

発表の中心は 1 つの変化にある。 Anthropic によると、モデルは複数の画面操作を通じて状態を保持するようになり、各ステップ後にリセットされなくなった。ユーザーは 1 回のセッション中にタスクが中断される頻度が減ったと報告している。このリリースは、単一のウェブサイトやコードリポジトリではなくデスクトップ全体を操作できるエージェントに向けた業界全体の動きの中で発表された。金融、法律、クリエイティブチームはすでに、この新機能が反復的な手作業を削減できるかどうかのテストを始めている。業界関係者は、これがユーザーが出力を手動で他のプログラムにコピー＆ペーストする必要があった従来のチャットボット型インターフェースからの脱却であると指摘している。代わりに、モデルは人間のオペレーターが使用するのと同じ視覚キャンバス上で直接動作できるようになった。

非公開プレビューの参加者からの初期フィードバックでは、期待と慎重さの両方が強調された。中規模会計事務所のエンジニアリングリーダーの 1 人は、3 つの異なるデスクトップアプリケーションにわたる銀行取引明細書の照合をエージェントに一晩実行させたところ、介入ポイントがわずか 2 回で完了したと述べた。他のテスターは、ライブスクリーンショットに対するモデルの推論能力により、以前同じ手順を自動化していた脆弱なスクリプト言語の必要性が減ったと強調した。ただし、これらの初期の成功は、画面レイアウトが数日間一貫していた厳密に管理された環境から得られたものだった。

より広い約束は、ナレッジワーカーが請求書処理、契約の赤字修正、キャンペーンアセットの準備といったエンドツーエンドのプロセス全体を、従来の自動化コードを 1 行も書かずに委任できるようになるというものだ。しかし、多くの実務者は現在のリリースを人間の労働の即時置き換えではなく、実験的なツールとして扱っている。デモ動画と日常的な本番利用の間のギャップは、必要な人間によるチェックポイントの頻度に依然として表れている。

コンピュータ利用インターフェースの実際の仕組み

Claude Opus 4.5 は、定期的にスクリーンショットをキャプチャし、ビジョンエンコーダーで処理して認識された UI 要素をマウス座標とキーボードイベントに変換するインターフェースレイヤーを導入している。モデルは「カーソルを (x, y) に移動」や「文字列 'Q3 revenue' を入力」などの構造化されたアクションを出力する。このループは、エージェントがデスクトップセッションを制御している間、継続的に実行される。

開発者は Anthropic API を通じて特別な「computer_use」ツール定義を渡すことで、この新機能を呼び出すことができる。有効化されると、モデルはテキスト指示と最新の画面キャプチャを同じリクエストで受け取る。レスポンスにはクライアントがローカルで実行するアクションリストが含まれ、その後次のスクリーンショットが返される。サイクルあたりのレイテンシは、ネットワーク状況と画像圧縮設定に応じて通常 800 ミリ秒から 2 秒程度である。詳細は Anthropic の公式 computer-use ドキュメントを参照。

システムはアプリケーション API ではなくピクセルレベルで動作するため、人間が見ることができる任意のグラフィカルソフトウェアと対話できる。最新の REST エンドポイントを持たないレガシーエンタープライズアプリケーションにも到達可能になる。同時に、このアプローチは人間のユーザーに影響を与えるすべての視覚的な曖昧さ（重なり合うウィンドウ、動的なハイライト、アンチエイリアシングのアーティファクトなど）を引き継ぐ。

実際には、チームは画像を送信前に 1024×768 または 1280×720 ピクセルにリサイズするようクライアントを設定し、認識精度とトークンコストのバランスを取っている。解像度を上げると小さなテキストの判読性が向上するが、レイテンシと API 利用料の両方が増加する。アクションループは「思考」ステップもサポートしており、モデルはマウスやキーボード出力を実行する前に次の計画されたシーケンスを一時停止して説明できる。この中間推論トレースは監査目的でログに記録したり、エージェントが特定の座標を選択した理由をデバッグしたりするために使用できる。

実装者らは、画像をモデルに送信する前に軽量なローカル OCR パスを追加すると、テキスト中心のワークフローで改善される場合があると報告しているが、このステップは公式には必須ではない。ネイティブビジョン処理とオプションの OCR の組み合わせは、密集した財務スプレッドシートや法的資料で最も信頼性の高い結果をもたらす。

画面上のモデルアクション

初期の開発者テストは、スプレッドシートの更新とメールの下書き作成に焦点を当てました。制御されたデモでは、Claude Opus 4.5 が反復ごとにレイアウトが一定に保たれている場合、範囲を選択し、数式を適用し、メッセージを作成することに成功しました。このモデルは、固定座標に頼るのではなく、画面にレンダリングされたテキストを読み取ることで列ヘッダーを特定することを学習しました。

画面サイズの変更やポップアップウィンドウは依然として失敗を引き起こしました。 モーダルダイアログが予期せず表示された場合、モデルは自律的な回復を試みるのではなく、追加の人間によるガイダンスを待つために一時停止することが多くありました。テスターはまた、マルチモニター構成では、各ディスプレイの解像度と相対位置の明示的な記述をエージェントが受け取らない限り、座標マッピングエラーが発生することを観察しました。

アクション空間には、左クリック、右クリック、ダブルクリック、ドラッグアンドドロップ、スクロール、修飾キー付きのテキスト入力が含まれます。タイミングパラメータにより、モデルはアニメーションやローディングスピナーを待ってから進むことができます。これらの基本要素は、「上位10行を新しいワークブックにコピーし、ヘッダー行を青色でフォーマットする」などの高レベルのシーケンスに組み合わされます。上級ユーザーは、数十のこうした基本要素を再利用可能なプレイブックに連結し始めています。これらのプレイブックはバージョン管理され、チーム間で共有可能です。

いくつかのパイロットグループは、これらのプレイブックの内部ライブラリを維持しており、各エントリにはシーケンスが検証された正確なソフトウェアバージョンと画面解像度の前提条件が含まれています。オペレーティングシステムのパッチがダイアログボックスを変更した場合、エンジニアはワークフロー全体を再構築するのではなく、影響を受けたプレイブックのみを迅速に特定して更新できます。

約束と限界の交差点

Anthropic は、200,000 トークンを超えるコンテキストウィンドウにより、モデルが数十ステップにわたって以前の画面状態と入力値を保持できると報告しています。ローンチ時に共有された内部評価では、エージェントは中間的なプロンプトなしで基本的なデータ入力ルーチンとファイルシステム操作を完了しました。computer-use technical announcement で説明されているように、ある内部テストでは 47 件の PDF 請求書を共有スプレッドシートに処理する作業が含まれ、モデルはバッチ全体で正しく行番号と通貨フォーマットを維持しました。

実際の使用では、モデルが制御できない変数が発生します。 ネットワーク遅延の急増、自動ソフトウェア更新、またはユーザー固有のフォルダー構造により、シーケンスがトレーニング例から逸脱します。ファイル保存ダイアログが予期しない場所に表示されたり、企業 VPN がウィンドウの境界を変更したりした場合、エージェントは推測するか停止するかのどちらかを選択する必要があります。監督なしの夜間ジョブを実行したチームは、中間結果を確認するために 3 ～ 5 分ごとにチェックポイントプロンプトを挿入する必要があることを発見しました。これらのガードレールがなければ、連続動作の 10 分目以降でエラー率が急激に上昇しました。現在、いくつかのパイロットグループは、夜間のバッチ処理が終了した後など、変動性の低い時間帯にのみエージェントをスケジュールしています。

長いセッションではトークン予算の制約も露呈します。200k のコンテキストウィンドウであっても、新しいスクリーンショットはそれぞれ数百トークンを消費するため、モデルは最終的に以前の視覚履歴を失います。チームは、完了したステップをプレーンテキストで要約し、その要約をプロンプトにフィードバックすることでこれを軽減し、視覚記録をモデルが持ち運べるコンパクトなナラティブに効果的に蒸留しています。

コンテキスト供給の問題

この機能は、モデルがユーザーの目標とすべての開いているウィンドウの現在の状態に関する完全な情報を受け取ることを前提としています。実際には、ファイル階層、命名規則、決定履歴はユーザーの頭の中にのみ存在します。したがって、各新しいセッションでは、意味のある作業を開始する前にオペレーターがプロジェクトの背景を再説明する必要があります。

チームはしばしば外部の検索システムを統合し、エージェントが関連する背景を自動的に取得できるようにします。Anthropic’s developer guide on long-context agents では、computer-use セッションを開始する前に取得した要約をプロンプトに挿入する方法が概説されています。これにより、オペレーターは起動のたびに同じ背景情報を繰り返す必要がなくなります。同様のメモリレイヤーは他のエージェントプラットフォームにも存在しますが、Claude Opus 4.5 がそれらを参照できるようにするには、ほとんどの場合、明示的な統合作業が必要です。

永続的なメモリを持たない一般的なエージェントは、新しいタスクごとに同じセットアップ作業を強いる。 Claude Opus 4.5 はアクション制御を改善したが、それでもユーザーが提供する新しいコンテキストに依存している。永続的なメモリブリッジは、組み込み機能ではなく外部の責任のままである。したがって、初期採用者はメモリ統合を後回しではなく、一級のエンジニアリングタスクとして扱う。一部の組織は、各主要なエージェント実行前に内部 wiki やチケットシステムをクエリする検索拡張生成パイプラインを埋め込み始め、人間オペレーターの認知負荷を軽減している。

他のコンピュータ制御エージェントとの比較

いくつかの研究グループやスタートアップがピクセルベースの制御を模索してきた。OpenAI の初期の強化学習エージェント実験や Adept の ACT-1 モデルは、同様のマウスとキーボードのプリミティブを実証した。これらのシステムは通常、タスク固有のファインチューニングや大量の人間によるデモンストレーションを必要とした。Claude Opus 4.5 は、スケールとスクリーンショットに対する chain-of-thought 推論を通じて、重いファインチューニングを回避しようとしている。

並行した試行では、ブラウザ自動化ツールと組み合わせた GPT-4o が、専用 DOM アクセスにより視覚ノイズを除去するため、Web 限定ワークフローでより高いスループットを達成した。一方、Claude Opus 4.5 は、対象アプリケーションに API が存在しない場合やデスクトップバイナリとしてのみ動作する場合に優位性を発揮する。トレードオフは、視覚的堅牢性が速度よりも重要となる長期的なエンタープライズプロセスで最も明確に現れる。計画と実行を別々のモデルに分割するマルチエージェントフレームワークも有望を示しているが、多くのチームが避けたいオーケストレーションの複雑さを追加する。

GitHub で公開されたコミュニティベンチマークでは、Claude Opus 4.5 が標準化された 50 のデスクトップタスクで 68 % の成功率を達成したのに対し、ファインチューニングされたオープンソースベースラインは 54 % にとどまった。タスクが高度に動的な Web アプリケーションを含む場合に差が縮まることは、ピクセルレベルのエージェントが汎用性を犠牲にしてレガシーソフトウェアに到達する能力を得るという観察を裏付けている。

実世界のユースケース

財務チームは、ERP エクスポートから数値を標準テンプレートにコピーする月次決算手順をプロトタイプ化した。十分なチェックポイントを設けることで、エージェントは反復的なフォーマット処理と相互参照を処理できる。法務オペレーショングループは、数百の PDF 証拠資料にわたる機密条項の墨消しをテストした。成功は一貫したドキュメントレイアウトと、墨消しルールを記述した事前ロードされた指示に依存した。

クリエイティブスタジオは、デザインアプリケーション内でのアセットファイルの一括リネームとメタデータタグ付けを試みた。初期結果は高度に反復的なパイプラインに有望性を示したが、プロジェクト間でバージョン番号やクライアント固有の命名規則が変わる場合の脆弱性が明らかになった。調達部門は、ベンダー PDF を読み取り、明細を抽出して会計システムに投稿する請求書取り込みワークフローのテストを開始しており、安定したテンプレートでは手動処理時間を数時間から数分に短縮している。

ある医療請求会社は、ロックダウンされた仮想マシン内でエージェントを使用して 1,200 件の請求を単一の週末で処理したと報告した。スタッフはモデルが低信頼とフラグを立てたケースの 4 % のみをレビューし、完全な自律性が達成される前でも測定可能な労働削減を実証した。

チームへの実践的示唆

画面制御エージェントに投資する組織は、エラーハンドリングスクリプトとコンテキスト準備ルーチンにもエンジニアリング時間を割り当てる必要がある。限界生産性の向上は、主要なワークフローごとに数日間の初期セットアップ期間を経て初めて現れる。確立されれば、エージェントはインターフェース変更が infrequent である安定したタスクで手動実行時間を 60–80 % 削減できる。

チームは、最初と最後のステップで人間のレビュアーとエージェントをペアリングすることが最も信頼性の高い結果をもたらすと報告している。完全な自律性は、ソフトウェアバージョンがロックダウンされた隔離された仮想マシンなどの狭く境界付けられた環境以外では依然として稀である。先を見据えた部門は現在、オートメーションエンジニアの職務記述書にエージェントメンテナンス責任を含めており、デスクトッププロセスの staffing 方法における恒久的な変化を示している。

制限とリスク

ピクセルレベルの制御にはセキュリティ上の影響があります。デスクトップアクセスを許可されたエージェントは、理論上、表示されている任意のドキュメントを読み取ったり、任意のキーストロークを実行したりできます。そのため、企業はこうしたエージェントを、サンドボックス化された仮想マシン内でネットワークの出力が制限された状態で実行します。監査ログが不可欠になります。すべてのマウスクリックとキーストロークは、コンプライアンスレビュー用に記録されるべきです。

ビジュアルの脆さは、新しい種類のメンテナンスオーバーヘッドも生み出します。上流のベンダーがUIを更新するたびに、以前に動作していたエージェントスクリプトは再検証や追加のトレーニング例を必要とします。この recurring cost は、大規模なUIテスト自動化スイートの維持という古典的な課題に似ています。バイアスと幻覚のリスクは残ります。モデルが画面上の数字を誤読し、そのエラーを下流の計算に伝播させ、不確実性をフラグ付けしない可能性があります。人間による監督チェックポイントは、エージェントがビジュアル解釈の信頼度レベルを確実に伝達できないため、依然として必要です。

今後の注目シグナル

レイアウト変更時のエラー回復速度に関するアップデートに注目してください。Anthropic は、予期しないダイアログなどの一般的な失敗モードを検出する自動リトライポリシーに関する継続的な作業を表明しています。10 分を超えるテストの精度数値が技術レポートで公開されるかどうかを確認してください。

チームが画面制御と保存されたプロジェクト履歴をどのように組み合わせるかを観察する。 すでにその履歴を保持しているツールは、繰り返しのセットアップの必要性を低減します。次のモデル更新後の結果を比較し、小さなインターフェース変更からの回復が十分に改善され、チェックポイントの頻度を減らせるかどうかを判断してください。業界アナリストは、computer-use ループを再現するオープンソースプロジェクトの監視も推奨しています。コミュニティの実装は、ベンダーリリースよりも迅速に堅牢性の改善をもたらす可能性があるためです。

FAQ

Claude Opus 4.5 は依然としてどれだけの人間による監督を必要とするか？

ほとんどの本番パイロットでは、最終確認や予期しないポップアップへの対応のために、ループ内に人間を残しています。15 分を超える完全自律実行は、厳密に管理されたテスト環境以外では一般的ではありません。

モデルは複数のモニターで動作するか？

はい。クライアントが各ディスプレイの座標と寸法を提供すれば可能です。セッション開始時にモニター配置の明示的な図がエージェントに提供されると、精度が向上します。

この機能は仮想マシン内で動作するか？

画面キャプチャ権限が有効で、ネットワーク遅延が低い状態であれば、VM 内で動作します。セキュリティを重視する多くのデプロイメントが意図的にこの構成を選択しています。

将来のバージョンでユーザー提供コンテキストへの依存は減るか？

Anthropic は長期記憶モジュールに関する研究を続けていますが、現在のリリースでは永続的なコンテキストはネイティブ機能ではなく外部統合ポイントとして扱われています。

急速に変化する技術関連のストーリーを追うチームは、ソースノート、会議の文脈、フォローアップ質問をまとめて保管する場所を必要とすることがよくあります。軽量な AI knowledge base を活用すれば、ニュースサイクルが変わった後でもそれらの要素を簡単に振り返ることができます。