マイクロソフトは11月24日に最新AIモデルFara-7Bを正式に発表しました。70億パラメータを備えたこのモデルは「コンピュータ使用エージェント」(Computer Use Agent, CUA)として位置づけられ、ローカル環境で直接実行可能でクラウドコンピューティングに依存せず、高性能とデータプライバシーを両立させています。
企業データセキュリティを重視し、「視覚認識」操作をサポート
Fara-7Bの設計コアは企業顧客の機密情報処理におけるプライバシーとコンプライアンス要件を満たすことにあります。モデルが十分にコンパクトなため、個人のコンピュータで実行でき、遅延を減らすだけでなく、データのクラウドへのアップロードを回避し、内部アカウント管理や機密文書処理などのシナリオにおけるローカル自動化の実現に役立ちます。
このモデルの最大の特徴は「画面操作を見る」方式でウェブサイトと対話することです—スクリーンショットを通じて画面レイアウトを読み取り、マウスクリック、入力、スクロールなどのアクションを予測します。ブラウザ構造に依存する従来の方法とは異なり、Fara-7Bはピクセルレベルのデータに基づいて完全に推論を行うため、コード構造が混乱したウェブサイトでも正常に機能します。
マイクロソフト研究所のプロダクトマネージャーであるYash Lara氏によると、Fara-7Bはローカル環境で視覚入力を処理することで「ピクセル主権」を実現し、医療や金融などの高度に規制された産業でも安心して使用できるようにしています。
実測性能はGPT-4oを上回り、小型モデルでより効率的
WebVoyagerテストベンチマークでは、Fara-7Bのタスク完了率は73.5%に達し、GPT-4oの65.1%とUI-TARS-1.5-7Bの66.4%を上回りました。さらに、Fara-7Bはタスク完了に平均わずか16ステップの操作しか必要とせず、UI-TARS-1.5-7Bの41ステップを明らかに上回り、精度と効率の間で最適なバランスを達成しています。
Fara-7Bは同時に「重要チェックポイント」(critical checkpoints)メカニズムを導入し、ユーザーの個人情報や不可逆操作(メール送信や送金など)に関わる場合に自動的に一時停止して確認を求め、「Magentic-UI」インタラクションインターフェースと組み合わせて、人間と機械の協力による安全防御線を提供します。
知識蒸留と専門家デモトレーニングで自律学習の可能性を強化
Fara-7Bは「知識蒸留」トレーニング方法を採用し、マルチエージェントシステムMagentic-Oneが生成した14.5万件の成功ナビゲーション例を統合し、単一モデルに圧縮して学習しています。さらに、基盤モデルはQwen2.5-VL-7Bに基づいており、最大128,000トークンのコンテキストウィンドウを持ち、優れた画像とテキストの整合能力を備え、トレーニングプロセスは主に人間の専門家の操作を模倣することに焦点を当てています。
マイクロソフトは、将来的により大きなモデルを盲目的に追求するのではなく、より「小さくて賢く、安全な」モデルの構築に注力し、合成サンドボックス環境での自己学習トレーニングに強化学習(RL)を導入する計画があると述べています。
オープンソースとして公開済み、自由に商用テスト可能だが正式製品ではない
現在、Fara-7BはMITライセンスの下でオープンソースとして公開されており、Hugging FaceとマイクロソフトFoundryプラットフォームからダウンロードして使用でき、商業アプリケーションでの使用が許可されています。しかし、マイクロソフトはこのモデルがまだ本番環境デプロイ基準に達していないと注意喚起し、現在は主に開発者がプロトタイプテストと機能検証に使用するのに適していると述べています。
- 関連記事:GoogleがWeatherNext 2次世代気象予報AIモデルを発表、Pixel、検索、Geminiで先行利用可能
- 関連記事:研究者がAIをより創造的にする簡単な質問法を発見、ChatGPT、GeminiなどあらゆるAIモデルに適用可能
- 関連記事:AnthropicがClaude Haiku 4.5小型AIモデルを発表:コストはわずか1/3、性能はSonnet 4と同等、プログラミング性能ではわずかに上回る


