
MicrosoftがパソコンをAI自身に操作させる新モデル「Fara-7B」を発表しました。70億パラメータという小型サイズながら、GPT-4oを上回る性能を示しています。クラウドに頼らずデバイス上で動作するため、企業の機密データを外部に送信せずに自動化が可能になります。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
人間と同じ方法でパソコンを操作するAI

想像してみてください。あなたがパソコンの前に座り、マウスを握り、キーボードで文字を打つ。Fara-7Bはまさにそれと同じ方法で動作します。画面のスクリーンショットを見ながら、「この座標をクリックすればいい」「ここに文字を入力すればいい」と判断し、操作を進めていくのです。
ここで重要なのは、Fara-7Bが「アクセシビリティツリー」を使わないという点です。アクセシビリティツリーとは、ブラウザがスクリーンリーダーにウェブページの構造を説明するために使うコード情報のことで、多くのAIエージェントはこれに頼ってウェブを操作します。しかしFara-7Bは違います。コード情報には一切頼らず、ピクセルレベルの視覚データだけで判断するのです。なぜこのアプローチが優れているのでしょうか。ウェブサイトのコードがどれだけ複雑でも、どれだけ難読化されていても、画面に表示されてさえいれば操作できるからです。人間が目で見て判断するのと同じように、AIも画面を「見て」判断します。
実際の性能はどうでしょうか。ウェブエージェントの標準的な評価基準であるWebVoyagerベンチマークにおいて、Fara-7Bのタスク成功率は73.5%を記録しました。これは、コンピューター操作エージェントとして動作させたGPT-4oの65.1%、そしてネイティブのUI-TARS-1.5-7Bモデルの66.4%を上回る数字です。70億パラメータという小型モデルが、より大規模なシステムを凌駕したのです。
効率性の面でも際立った差が出ています。Fara-7Bが平均約16ステップでタスクを完了するのに対し、UI-TARS-1.5-7Bモデルは約41ステップも必要としました。スピードと正確性の両面で、Fara-7Bは優位性を示しています。
そしてもう一つ、見逃せないのがセキュリティです。Microsoft Researchのシニアプロダクトマネージャーリードであるヤシュ・ララ氏は、すべての視覚入力をデバイス上で処理することで真の「ピクセル主権」が実現されると説明しています。スクリーンショットも、それを分析する推論プロセスも、すべてユーザーのデバイス内で完結する。つまり、データは外部に一切送信されません。ララ氏は「このアプローチは、HIPAAやGLBAを含む規制分野における厳格な要件を組織が満たすのに役立ちます」と述べています。HIPAAは医療情報、GLBAは金融情報を保護するための米国の法規制です。機密性の高いデータを扱う企業にとって、これは大きな意味を持ちます。
では、この小型モデルは一体どうやって、これほど高度な操作能力を身につけたのでしょうか。その秘密は、開発プロセスそのものにあります。
145,000件のデータから学んだ小型モデルの仕組みと安全設計

Fara-7Bの開発には「知識蒸留」という技術が使われています。複雑で大規模なシステムの能力を、小型で効率的なモデルに圧縮する手法です。通常、コンピューター操作AIを作るには、ウェブをどう操作すればよいかを示す膨大な訓練データが必要になります。人間がこのデータを手作業で作成するのは現実的ではありません。そこでMicrosoftは、Magentic-Oneというマルチエージェントフレームワークを活用しました。「オーケストレーター」が計画を立て、「WebSurfer」がウェブを閲覧する。この協働作業で145,000件もの成功したタスク軌跡が自動生成されました。
この膨大なデータをFara-7Bに「蒸留」し、ベースモデルにはQwen2.5-VL-7Bが選ばれています。最大128,000トークンという長いコンテキストウィンドウを持ち、テキストの指示を画面上の視覚要素に結びつける能力に優れているからです。データ生成には重量級のマルチエージェントシステムが必要でしたが、Fara-7B自体は単一のモデルです。小型でも、実行時に複雑な足場を必要とせず高度な行動を学習できることを証明しています。
しかし、自律的に動くAIにはリスクも伴います。Microsoftは、Fara-7Bが幻覚、指示のミス、精度の低下といったAIモデル共通の限界を持つことを認めています。これらのリスクを軽減するために組み込まれたのが「クリティカルポイント」です。メールの送信や金融取引など、取り返しのつかない行動の前にユーザーの同意を必要とする状況で、Fara-7Bは動作を一時停止し、明示的に承認を求めます。ただし、何度も承認を求められたらユーザーは疲れてしまいます。そのために開発されたのがMagentic-UIという研究プロトタイプで、必要なときだけ介入できる仕組みになっています。
今後、Microsoftはモデルを大型化するのではなく、よりスマートにすることに注力します。ララ氏は「エージェント型モデルをより大きくするだけでなく、よりスマートで安全にすることに焦点を当てています」と説明しています。
Fara-7BはHugging FaceとMicrosoft FoundryでMITライセンスで公開されています。ただしララ氏は「ミッションクリティカルな展開ではなく、パイロットや概念実証に最適です」と注意を促しています。現時点ではまだ実験段階ですが、誰もが自由に試せる環境が整っている点は大きな意味を持ちます。
まとめ

いかがだったでしょうか?
Fara-7Bは70億パラメータという小型サイズでありながら、GPT-4oを上回る性能を示しました。画面を見て判断する視覚優先のアプローチと、デバイス上で完結する設計により、機密データを守りながらタスクを自動化できます。クリティカルポイントによる安全設計も組み込まれており、AIの暴走を防ぐ仕組みが整っています。現在は実験段階ですが、MITライセンスで公開されているため、誰でも試すことができます。
参考資料;Microsoft’s Fara-7B is a computer-use AI agent that rivals GPT-4o and works directly on your PC
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。



