ByteDanceのAI「UI-TARS」、PCとスマホ操作で主要AI上回る

ByteDanceは、パソコンやスマートフォンの操作を自動で行うAIエージェント「UI-TARS」を発表しました。このAIは、OpenAIやAnthropicが開発したGPT-4やClaudeと比べ、より正確に操作を実行できることがベンチマークテストで示されています。特にモバイル環境での性能は他社製品を大きく引き離しています。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

UI-TARSの基本設計と特徴

TikTokを運営するByteDanceは、中国のテクノロジー企業として知られており、ソーシャルメディアプラットフォームの開発・運営で実績を持っています。同社が開発したUI-TARSは7Bと72Bの2つのパラメーターサイズで提供されており、約500億のデータで学習を重ねています。このAIの最大の特徴は、画面に表示される情報を正確に理解し、適切な操作を自動で行える点にあります。
インターフェースは左右に分かれており、左側では実行しようとしている内容を段階的に表示し、右側では実際の操作画面を表示するため、ユーザーはAIの思考プロセスを確認しながら操作の進行状況を把握できます。
画面の認識には、テキスト、画像、インタラクション情報を組み合わせた複数の入力方式を採用しており、操作対象の画面から要素の説明、位置情報、機能、テキストなどの情報を抽出して画面全体の構造を理解します。また、UI-TARSは操作する画面のスクリーンショットから要素の種類や配置、機能といったメタデータを解析できるため、ウェブサイトやアプリケーション、オペレーティングシステムなど、様々な環境で正確な操作が可能です。
この高度な認識能力は、次のセクションで紹介する実践的な操作において重要な役割を果たしています。

実践的な動作プロセスと意思決定の仕組み

UI-TARSの具体的な動作例として、航空券の予約とVS Codeの拡張機能インストールが挙げられます。航空券予約では、デルタ航空のウェブサイトでの出発地と目的地の入力から、日付の選択、価格によるソートまで、複数の操作を連続して実行しながら、各ステップの内容を左側の画面で分かりやすく説明します。
システムの中核を支えているのは、短期記憶と長期記憶の2種類の記憶システムです。短期記憶では現在実行中のタスクに必要な情報を保持し、長期記憶では過去の操作履歴を保存して将来の判断に活用します。さらに、高速で直感的な判断を行うSystem 1と、じっくりと分析的に考えるSystem 2を組み合わせることで、状況に応じた適切な判断を実現しています。エラーへの対応も特徴的で、VS Code拡張機能のインストール例では、拡張機能タブのクリックに失敗した際、クリック位置の不正確さを認識して再試行するなど、問題の分析から修正までを自律的に行います。
このような適応能力は、次のセクションで紹介する性能評価において、他社製品との差を生む要因となっています。

性能評価と技術的優位性

UI-TARSは、GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Gemini-2.0、Qwenなど、主要なAIモデルとの比較検証で優れた性能を示しています。ウェブ要素の認識精度を測定する「VisualWebBench」では、UI-TARS 72Bが82.8%のスコアを達成し、GPT-4oの78.5%とClaude 3.5の78.2%を上回りました。
特筆すべき点は、ウェブとモバイルの両環境での高い性能です。ウェブサイトのコンテンツとレイアウトの理解を評価する「WebSRCテスト」では、UI-TARS-7Bが93.6%を記録し、GPT-4oの85.2%、Claude 3.5の83.7%を大きく上回りました。また、モバイル画面の理解力を測る「ScreenQA-short」では、UI-TARS-72Bが88.6%を達成し、Qwen-72B(82.3%)やGemini-2.0(80.1%)といった競合モデルを引き離しています。ByteDanceの研究チームは、この性能の高さをエラー修正データと復旧手順のシミュレーションデータの活用によるものと説明しています。また、GUIの要素理解を評価するScreenSpot、オープンエンドなタスクを検証するOSWorld、20種類のモバイルアプリでの操作を試すAndroidWorldなど、多角的な評価でも優れた結果を示しており、特にモバイル環境での操作性はAnthropicのComputer Useと比較して明確な優位性が見られ、この分野における新たな技術標準を確立する可能性を示唆しています。
これらの包括的な評価結果は、UI-TARSが実用的なAIエージェントとして、大きな可能性を秘めていることを示しています。TikTokの買収問題で話題となっていますが、ByteDanceは今後、UI-TARSによってAI業界に大きなインパクトを残していくかもしれません!

まとめ

いかがだったでしょうか?
ByteDanceが開発したUI-TARSは、PCとモバイルの両環境で高い操作精度を実現しています。ベンチマークテストでは主要なAIモデルを上回る性能を示し、特にモバイル環境での操作性において優位性が確認されました。この技術は今後のAIエージェントの発展における一つの指標となる可能性があると考えられます。ただし、一般ユーザーへの提供時期や利用条件などは現時点で明らかにされていません。

ByteDanceの記事ついてはこちらも併せてご覧ください:
TikTok親会社が開発!表情豊かな動画を生成する「X-Portrait 2」とは

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録