
AIがあなたの代わりにパソコンを操作する。そんなSF映画のような光景が現実になろうとしています。Googleが発表した「Gemini 2.5 Computer Use」は、ウェブを閲覧し、フォームに入力し、ボタンをクリックする──人間と同じ方法で動くAIです。単なる技術デモではなく、働き方を変える可能性を秘めています。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
AIが「見て、考えて、操作する」仕組み
参照:Google
従来のAIは、ソフトウェアと連携する際に「API」と呼ばれる専用の接続口を必要としていました。APIとは、プログラム同士があらかじめ決められた形式でデータをやり取りするための仕組みで、特定の鍵穴に合う鍵がなければ扉を開けられない──それが今までの限界でした。
Gemini 2.5 Computer Useは、その制約を取り払いました。画面のスクリーンショットを見て、状況を理解し、マウスやキーボードを操作する。人間とまったく同じ方法で動くのです。鍵穴がなくても、画面を見れば何をすべきかわかる──これがこのモデルの本質です。
仕組みはシンプルです。Gemini APIのcomputer_use
ツールに、ユーザーの指示、画面のスクリーンショット、直近のアクション履歴を送ります。AIはこれを分析し、次にすべき操作──クリック、タイピング、スクロール──を「関数呼び出し」という形式で返してきます。クライアント側がその指示を実行すると、新しい画面とURLがAIに送り返され、また次の判断を下す。このループが、タスク完了まで続くわけです。
Googleが公開しているデモを見るとわかりやすいでしょう。ペットケアサイトからカリフォルニア在住のペット情報を取得し、別のスパ管理システムに登録、さらに特定の専門家との予約を10月10日午前8時以降に設定する──人間なら5分以上かかるこの一連の作業を、AIが画面を見ながら黙々と処理していきます。別のデモでは、散らばった付箋メモをドラッグ&ドロップで適切なカテゴリーに整理する様子も公開されています。(上記動画参照)
現時点では、ウェブブラウザでの操作に最適化されています。モバイルでも有望な結果を示していますが、デスクトップOSレベルの制御にはまだ対応していません。つまり、ブラウザで完結する作業──フォーム入力、データ転記、予約設定──が得意分野ということです。これまで「システムがつながっていないから諦めていた」という作業が、画面を見せるだけで実現できるようになる。
では、このモデルは本当に実用に耐えるのでしょうか。性能と安全性を見ていきましょう。
性能と安全性──実用化への道筋

複数のベンチマークで、このモデルは既存のものを上回る結果を出しています。特に注目すべきは、Browserbase社が実施したOnline-Mind2Webでの評価です。ブラウザ操作において最高品質を最低レイテンシ(遅延時間)で達成しており、精度だけでなく速度も速いことが証明されました。
ただし、AIにパソコン操作を任せることには、見過ごせないリスクがあります。Googleはシステムカードで3つの主要なリスクを明示しています──ユーザーによる意図的な悪用、予期しないモデルの動作、そしてウェブ上の悪意ある指示に騙される危険です。最後のものは「プロンプトインジェクション」と呼ばれ、ウェブページに仕込まれた指示をAIが本物のユーザー指示と誤認して実行してしまう問題を指します。
Googleの対策は二重構造になっています。まず、モデル自体に安全機能を組み込みました。その上で、開発者向けの制御機能も提供しています。一つは「ステップごとの安全サービス」で、AIが提案する各アクションを実行前に評価する仕組みです。もう一つは「システム指示」で、開発者が特定のアクションを拒否させたり、ユーザー確認を求めさせたりできます。ブロック対象となるアクションには、システム破壊、セキュリティ侵害、CAPTCHAのバイパス、医療機器の制御などが含まれています。また購入など重要な操作では、AIが勝手に実行せずユーザーに確認を求める設定も可能です。気づいたらAIが勝手に買い物をしていた──そんな事態は起きない設計になっているわけです。
実用化はすでに始まっています。Google社内ではUIテスト──ソフトウェアの動作確認作業──に活用され、開発速度を大幅に上げられる可能性を示しています。このモデルのバージョンは、Project Mariner、Firebase Testing Agent、検索のAI Modeの一部機能にも使われています。早期アクセスプログラムのユーザーも、業務自動化やパーソナルアシスタント機能で良好な結果を報告しています。
ただしGoogleは、開発者に対して本番環境での使用前に徹底的なテストを行うよう強く推奨しています。安全策は用意されていますが、完全ではない──その前提で慎重に扱うべき技術だということです。
まとめ

いかがだったでしょうか?
Gemini 2.5 Computer Useは本日から、Google AI StudioとVertex AI経由でパブリックプレビューとして提供されています。Browserbaseのデモ環境で実際に試すことも、ドキュメントを参照して独自のエージェントループを構築することもできます。デスクトップOS全体の制御にはまだ対応していませんし、安全面の課題も残されています。しかし、私たちが日々繰り返している定型作業、複数システムをまたぐ面倒な入力作業をAIに任せられる可能性が、ここに具体的な形で示されました。Googleは開発者フォーラムでフィードバックを募集しており、コミュニティの声が今後のロードマップを形作っていくとしています。大切なのは、この技術をどう使うかです。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。