AIがブラウザを操作する時代へ!OpenAI Operatorの全容を解説

米OpenAIは、ウェブブラウザを直接操作するAIエージェント「Operator」を発表しました。
ChatGPTのテキストベースのやり取りを超え、レストラン予約やチケット購入など、これまで手動で行っていた作業をAIが実行。実際のウェブサイト上での操作を可能にした新機能として注目を集めています。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

Operatorが実現する新しいAIの操作体験

Operatorは、AIがウェブブラウザを直接操作し、ユーザーの代わりに様々なウェブサイトでの作業を実行できる新しいサービスです。operator.chatgpt.comという専用サイトを通じて利用でき、現在はChatGPT Proの契約者(月額200ドル)のみがアクセス可能となっています。
サイトにアクセスすると、ChatGPTに似た入力ボックスが表示され、「今夜のLAレイカーズの試合のチケットを探して」といった具体的な指示を入力できます。入力された指示に基づき、OpenAIのサーバー上で動作する仮想ブラウザが起動し、カーソルの動きやフォームへの入力など、まるで人間がパソコンを操作しているかのような動きをリアルタイムで確認することができます。現代の自動運転車と同じような考え方で、作業の途中でいつでもユーザーが操作を引き継ぐことができ、AIの判断に不安を感じた場合や、より細かい指示を出したい場合にすぐに制御できる仕組みとなっています。また、決済が必要な場面では、セキュリティを考慮してユーザー自身による支払い情報の入力が求められ、さらに日常的に行う作業については、ワークフローとして保存して次回から同じ手順を再利用することも可能です。ウェブサイトを横断する複雑な作業も自動化できるため、例えば複数の旅行サイトを比較しながらの予約や、定期的な情報収集などの業務効率化が期待できます。
このような実用的な機能を実現している技術基盤について、次のセクションで詳しく見ていきましょう。

技術基盤と性能評価

Operatorの中核を支えているのは、コンピュータ使用エージェント(CUA)技術です。これは、コンピュータの操作に特化して訓練された、GPT-4oの新しいバリエーションであり、従来のAIとは異なり、画面上のボタンやメニューなどの視覚的な要素(グラフィカルユーザーインターフェース、GUI)を、人間が操作するのと同じように認識し、クリックやタイピングを行うことができます。
仕組みとしては、スクリーンショットを視覚情報として取り込んで画面の状態を理解し、仮想のマウスとキーボードを使って実際の操作を行います。この方法により、各ウェブサイトが提供する専用のAPI(プログラムの機能を外部から利用するための仕組み)に依存することなく、様々なサービスを利用できるようになりました。
性能面では、実際のウェブサイトでの操作テストである「WebVoyager」で87%の成功率を記録しており、これは人間の平均的な操作成功率に迫る数値です。また、オンラインショッピングやウェブサイトの管理など、より複雑な操作が必要となる「WebArena」でも58.1%の成功率を達成しており、実用レベルの性能を示しています。
実証実験では、すでに多くの企業が参画しています。Instacart、DoorDash、Etsyなどの企業が食料品の配達から個人向けショッピングまで様々な用途でテストを実施しており、旅行予約サイトのPricelineでは、旅行プランの作成における実用性が確認されています。また、公共部門でもストックトン市が市民サービスへの登録手続きの簡素化を目的とした検証を進めています。
このように高い性能と実用性が確認されているOperatorですが、現状でのいくつかの制約と、それを踏まえた今後の展望について、次のセクションで見ていきましょう。

利用における制約と今後の展望

Operatorの最も特徴的な制約は、ユーザー自身のブラウザではなく、OpenAIのデータセンターにある仮想ブラウザを通じて操作が行われる点です。この仕組みにより、モバイルデバイスを含むあらゆる端末からの利用が可能になる一方で、いくつかの制限も生まれています。
具体的には、RedditなどのプラットフォームではAIエージェントによるブラウジングがブロックされており、アクセスができません。また、Figmaのようなリソースを多く使用するサイトや、YouTubeなどの競合他社が所有するサイトへのアクセスもOpenAIによって制限されています。
一方で、セキュリティ面では充実した保護措置が実装されています。購入やメール送信などの重要な操作には必ずユーザーの確認が必要で、メールや金融関連のサイトでは「監視モード」が適用され、ユーザーの監督のもとでのみ操作が可能です。また、ウェブサイトに埋め込まれた悪意のあるプロンプトなどの攻撃からシステムを守る保護機能も備えています。
エージェント分野では、ByteDanceが同様のウェブブラウザ操作機能を持つAIエージェント「UI-TARS」をオープンソースで提供するなど、競合の動きも活発化しています。OpenAIは今後、この技術をAPIとして提供することを発表しており、開発者が独自のコンピュータ操作エージェントを作成できるようになることで、より多様な用途での活用が期待されます!

まとめ

いかがだったでしょうか?
OpenAIのOperatorは、AIがウェブブラウザを直接操作するという新しい可能性を示しました。現時点では利用できるサイトに制限があり、月額料金も比較的高額ですが、日常的な作業の自動化という観点で大きな可能性を秘めています。実証実験の結果からは、実用的なツールとしての期待が高まっていることが分かり、今後のAPIの公開により、さらに幅広い用途での活用が見込まれます。

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録