微软于 11 月 24 日正式发表最新 AI 模型 Fara-7B,这款具备 70 亿参数的模型被定位为"电脑使用代理"(Computer Use Agent, CUA),主打可直接在本地端运行、无需依赖云端算力,同时兼顾高效能与数据隐私。
主打企业数据安全,支持"视觉感知"操作
Fara-7B 的设计核心在于满足企业客户对敏感信息处理的隐私与合规需求。由于模型足够精简,可以在个人电脑上执行,不仅降低延迟,也避免数据上传至云端,有助于落实本地化自动化,例如用于内部账号管理、机密文件处理等场景。
这款模型最大特色是采用"看屏幕操作"方式与网站互动——通过屏幕截图读取画面排版,再预测鼠标点击、输入或滚动等动作。与传统依赖浏览器结构的方式不同,Fara-7B 完全基于像素级数据进行推理,因此即便是程序代码结构混乱的网站,也能正常运作。
微软研究院产品经理 Yash Lara 表示,Fara-7B 通过本地端处理视觉输入,实现所谓的"像素主权",让包括医疗、金融等高度监管产业也能安心使用。
实测效能超越 GPT-4o,小模型更高效
在 WebVoyager 测试基准中,Fara-7B 的任务完成率达 73.5%,高于 GPT-4o 的 65.1% 与 UI-TARS-1.5-7B 的 66.4%。此外,Fara-7B 完成任务平均仅需 16 步操作,明显优于 UI-TARS-1.5-7B 的 41 步,在准确率与效率之间达成最佳平衡。
Fara-7B 同时引入"关键确认点"(critical checkpoints)机制,在遇到涉及用户个资或不可逆操作(如发送信件、金钱转移)时会自动暂停并请求确认,搭配"Magentic-UI"互动界面,提供人机协作的安全防线。
知识蒸馏与专家示范训练,强化自主学习潜力
Fara-7B 采用"知识蒸馏"训练方法,整合由多代理系统 Magentic-One 所产生的 14.5 万笔成功导航范例,并压缩至单一模型中学习。此外,底层模型基于 Qwen2.5-VL-7B,拥有最长 128,000 token 的上下文窗口,具备优异的图文对齐能力,训练过程以模仿人类专家操作为主。
微软表示,未来不会盲目追求更大模型,而是致力于打造更"小而聪明、安全"的模型,并计划引入强化学习(RL)于合成沙盒环境中进行自学训练。
已开源上架,可自由测试商用但尚非正式产品
目前 Fara-7B 已通过 MIT 授权开源释出,可在 Hugging Face 与微软 Foundry 平台下载使用,允许用于商业应用。但微软也提醒,该模型尚未达到生产环境部署标准,目前主要适合开发者用于原型测试与功能验证。
- 延伸阅读:Google 推 WeatherNext 2 新一代气象预报 AI 模型,Pixel、搜索、Gemini 抢先用
- 延伸阅读:研究者发现让 AI 变得更有创意的懒人提问法,不论 ChatGPT、Gemini 等任何 AI 模型皆能适用
- 延伸阅读:Anthropic 发表Claude Haiku 4.5 小型 AI 模型:仅 1/3 成本、效能对标 Sonnet 4,程序表现甚至小赢


