أعلنت مايكروسوفت رسمياً في 24 نوفمبر عن أحدث نموذج للذكاء الاصطناعي Fara-7B، هذا النموذج الذي يحتوي على 7 مليارات معلمة تم تحديده كـ "وكيل استخدام الكمبيوتر" (Computer Use Agent, CUA)، ويتميز بأنه يمكن تشغيله مباشرة على المستوى المحلي دون الحاجة إلى الاعتماد على قوة الحوسبة السحابية، مع الحفاظ على الأداء العالي وخصوصية البيانات.
يركز على أمان بيانات الشركات، ويدعم عمليات "الإدراك البصري"
يكمن جوهر تصميم Fara-7B في تلبية متطلبات عملاء الشركات فيما يتعلق بـخصوصية معالجة المعلومات الحساسة والامتثال. نظرًا لأن النموذج مضغوط بما فيه الكفاية، يمكن تشغيله على أجهزة الكمبيوتر الشخصية، مما لا يقلل التأخير فحسب، بل يتجنب أيضًا تحميل البيانات إلى السحابة، مما يساعد على تنفيذ الأتمتة المحلية، مثل استخدامه في إدارة الحسابات الداخلية ومعالجة المستندات السرية وغيرها من السيناريوهات.
الميزة الرئيسية لهذا النموذج هي استخدام طريقة "مشاهدة عمليات الشاشة" للتفاعل مع المواقع - من خلال قراءة تخطيط الشاشة عبر لقطات الشاشة، ثم التنبؤ بإجراءات مثل النقر بالماوس أو الإدخال أو التمرير. على عكس الطرق التقليدية التي تعتمد على بنية المتصفح، يعتمد Fara-7B بالكامل على بيانات مستوى البكسل للاستدلال، لذلك حتى المواقع ذات بنية الكود المربكة يمكن أن تعمل بشكل طبيعي.
قال ياش لارا، مدير المنتج في معهد أبحاث مايكروسوفت، إن Fara-7B يحقق ما يسمى بـ "سيادة البكسل" من خلال معالجة المدخلات المرئية محليًا، مما يسمح للصناعات الخاضعة للرقابة الشديدة مثل الرعاية الصحية والتمويل باستخدامها بثقة.
أداء الاختبار يتفوق على GPT-4o، النموذج الصغير أكثر كفاءة
في معيار اختبار WebVoyager، وصل معدل إكمال المهام لـ Fara-7B إلى 73.5٪، وهو أعلى من 65.1٪ لـ GPT-4o و 66.4٪ لـ UI-TARS-1.5-7B. بالإضافة إلى ذلك، يحتاج Fara-7B في المتوسط إلى 16 خطوة فقط لإكمال المهام، وهو أفضل بشكل ملحوظ من 41 خطوة لـ UI-TARS-1.5-7B، مما يحقق التوازن الأمثل بين الدقة والكفاءة.
يقدم Fara-7B أيضًا آلية "نقاط التحقق الحرجة" (critical checkpoints)، والتي تتوقف تلقائيًا وتطلب التأكيد عند مواجهة عمليات تتضمن معلومات شخصية للمستخدم أو إجراءات غير قابلة للعكس (مثل إرسال البريد أو تحويل الأموال)، جنبًا إلى جنب مع واجهة تفاعل "Magentic-UI"، مما يوفر خط دفاع آمن للتعاون بين الإنسان والآلة.
تقطير المعرفة وتدريب العروض التوضيحية للخبراء، تعزيز إمكانات التعلم الذاتي
يستخدم Fara-7B طريقة تدريب "تقطير المعرفة"، التي تدمج 145,000 مثال ناجح للتنقل تم إنشاؤه بواسطة نظام متعدد الوكلاء Magentic-One، وضغطه للتعلم في نموذج واحد. بالإضافة إلى ذلك، يعتمد النموذج الأساسي على Qwen2.5-VL-7B، مع نافذة سياق تصل إلى 128,000 رمز، وقدرات ممتازة لمحاذاة الصور والنصوص، مع عملية تدريب تركز بشكل أساسي على محاكاة عمليات الخبراء البشريين.
ذكرت مايكروسوفت أنها لن تسعى بشكل أعمى وراء نماذج أكبر في المستقبل، بل ستركز على إنشاء نماذج "أصغر وأذكى وأكثر أمانًا"، وتخطط لإدخال التعلم المعزز (RL) للتدريب الذاتي في بيئات الصندوق الرملي الاصطناعية.
متاح كمصدر مفتوح، يمكن اختباره بحرية للاستخدام التجاري ولكنه ليس منتجًا رسميًا بعد
حاليًا، تم إصدار Fara-7B كمصدر مفتوح بموجب ترخيص MIT، ويمكن تنزيله واستخدامه على منصات Hugging Face و Microsoft Foundry، ويُسمح باستخدامه في التطبيقات التجارية. ومع ذلك، تحذر مايكروسوفت أيضًا من أن النموذج لم يصل بعد إلى معايير نشر بيئة الإنتاج، وهو مناسب حاليًا بشكل أساسي للمطورين لاختبار النماذج الأولية والتحقق من الوظائف.
- قراءة إضافية: تطلق Google نموذج WeatherNext 2 للذكاء الاصطناعي للتنبؤ بالطقس من الجيل الجديد، متاح أولاً على Pixel والبحث وGemini
- قراءة إضافية: اكتشف الباحثون طريقة سؤال سهلة لجعل الذكاء الاصطناعي أكثر إبداعًا، قابلة للتطبيق على أي نموذج ذكاء اصطناعي سواء كان ChatGPT أو Gemini أو غيرهما
- قراءة إضافية: أعلنت Anthropic عن نموذج Claude Haiku 4.5 للذكاء الاصطناعي الصغير: بتكلفة 1/3 فقط، وأداء يضاهي Sonnet 4، وأداء برمجي يتفوق عليه قليلاً


