Microsoft hat am 24.11. offiziell sein neuestes KI-Modell Fara-7B vorgestellt. Dieses Modell mit 7 Milliarden Parametern wird als "Computer Use Agent" (CUA) positioniert und zeichnet sich dadurch aus, dass es direkt lokal ausgeführt werden kann, ohne auf Cloud-Rechenleistung angewiesen zu sein, während es gleichzeitig hohe Leistung und Datenschutz bietet.
Fokus auf Unternehmensdatensicherheit mit Unterstützung für "visuelle Wahrnehmung"
Das Kerndesign von Fara-7B zielt darauf ab, die Datenschutz- und Compliance-Anforderungen von Unternehmenskunden bei der Verarbeitung sensibler Informationen zu erfüllen. Da das Modell ausreichend schlank ist, kann es auf einem PC ausgeführt werden, was nicht nur die Latenz reduziert, sondern auch verhindert, dass Daten in die Cloud hochgeladen werden müssen. Dies unterstützt die lokale Automatisierung, beispielsweise für die interne Kontoverwaltung und die Verarbeitung vertraulicher Dokumente.
Das Hauptmerkmal dieses Modells ist die Verwendung der "Bildschirmbetrachtung" zur Interaktion mit Websites – es liest das Bildschirmlayout über Screenshots und prognostiziert dann Mausklicks, Eingaben oder Scrollaktionen. Im Gegensatz zu herkömmlichen Methoden, die auf der Browser-Struktur basieren, führt Fara-7B Schlussfolgerungen vollständig auf Pixelebene durch, sodass es auch bei Websites mit chaotischer Codestruktur normal funktionieren kann.
Yash Lara, Produktmanager bei Microsoft Research, erklärt, dass Fara-7B durch die lokale Verarbeitung visueller Eingaben die sogenannte "Pixel-Souveränität" realisiert, was auch stark regulierten Branchen wie dem Gesundheitswesen und dem Finanzsektor eine sichere Nutzung ermöglicht.
Praxistests zeigen bessere Leistung als GPT-4o, kleineres Modell ist effizienter
In den WebVoyager-Benchmark-Tests erreichte Fara-7B eine Aufgabenabschlussrate von 73,5%, höher als die 65,1% von GPT-4o und die 66,4% von UI-TARS-1.5-7B. Darüber hinaus benötigt Fara-7B durchschnittlich nur 16 Schritte zur Aufgabenerfüllung, deutlich weniger als die 41 Schritte von UI-TARS-1.5-7B, und erreicht damit ein optimales Gleichgewicht zwischen Genauigkeit und Effizienz.
Fara-7B führt auch einen "Critical Checkpoints"-Mechanismus ein, der automatisch pausiert und eine Bestätigung anfordert, wenn es um persönliche Benutzerdaten oder irreversible Aktionen (wie das Senden von E-Mails oder Geldtransfers) geht. In Kombination mit der "Magentic-UI"-Schnittstelle bietet es eine Sicherheitsbarriere für die Mensch-Maschine-Zusammenarbeit.
Wissensdestillation und Expertendemonstrationstraining stärken das Potenzial für selbstständiges Lernen
Fara-7B verwendet die Methode der "Wissensdestillation" und integriert 145.000 erfolgreiche Navigationsbeispiele, die vom Multi-Agent-System Magentic-One generiert wurden, und komprimiert sie zum Lernen in einem einzigen Modell. Darüber hinaus basiert das Grundmodell auf Qwen2.5-VL-7B mit einem Kontextfenster von bis zu 128.000 Token und hervorragender Bild-Text-Ausrichtungsfähigkeit. Der Trainingsprozess konzentriert sich hauptsächlich auf die Nachahmung menschlicher Expertenoperationen.
Microsoft erklärt, dass sie in Zukunft nicht blindlings größere Modelle anstreben, sondern sich darauf konzentrieren werden, "kleinere, intelligentere und sicherere" Modelle zu entwickeln und planen, Reinforcement Learning (RL) in synthetischen Sandbox-Umgebungen für selbstständiges Training einzuführen.
Bereits als Open Source verfügbar, frei testbar für kommerzielle Zwecke, aber noch kein offizielles Produkt
Derzeit ist Fara-7B unter der MIT-Lizenz als Open Source verfügbar und kann auf Hugging Face und der Microsoft Foundry-Plattform heruntergeladen und für kommerzielle Anwendungen genutzt werden. Microsoft weist jedoch darauf hin, dass das Modell noch nicht den Standard für den Einsatz in Produktionsumgebungen erreicht hat und derzeit hauptsächlich für Entwickler zur Prototypentestung und Funktionsvalidierung geeignet ist.
- Weiterführende Lektüre: Google stellt WeatherNext 2 vor, ein KI-Modell der nächsten Generation für Wettervorhersagen, das zuerst auf Pixel, in der Suche und in Gemini zum Einsatz kommt
- Weiterführende Lektüre: Forscher entdecken eine einfache Fragemethode, die KI kreativer macht und bei allen KI-Modellen wie ChatGPT, Gemini usw. anwendbar ist
- Weiterführende Lektüre: Anthropic stellt Claude Haiku 4.5 vor, ein kleines KI-Modell: nur 1/3 der Kosten, Leistung vergleichbar mit Sonnet 4, Programmierleistung sogar leicht überlegen


