Microsoft presentó oficialmente el 24 de noviembre su más reciente modelo de IA Fara-7B, este modelo con 7 mil millones de parámetros está posicionado como un "Agente de IA" para uso informático (Computer Use Agent, CUA), destacando por poder ejecutarse directamente en local, sin depender de potencia de computación en la nube, mientras equilibra alto rendimiento y privacidad de datos.
Enfocado en la seguridad de datos empresariales, compatible con operaciones de "percepción visual"
El núcleo del diseño de Fara-7B se centra en satisfacer las necesidades de privacidad y cumplimiento en el procesamiento de información sensible de los clientes empresariales. Como el modelo es lo suficientemente compacto para ejecutarse en computadoras personales, no solo reduce la latencia, sino que también evita la carga de datos a la nube, contribuyendo a la implementación de automatización local, por ejemplo, para gestión de cuentas internas y procesamiento de documentos confidenciales.
La característica más destacada de este modelo es su método de interacción con sitios web mediante "observación de pantalla": lee la disposición de la pantalla a través de capturas y luego predice acciones como clics de ratón, entradas o desplazamientos. A diferencia de los métodos tradicionales que dependen de la estructura del navegador, Fara-7B realiza inferencias completamente basadas en datos a nivel de píxel, por lo que funciona normalmente incluso en sitios web con estructuras de código desordenadas.
Yash Lara, gerente de producto de Microsoft Research, señala que Fara-7B logra la llamada "soberanía de píxeles" mediante el procesamiento local de entradas visuales, permitiendo que incluso industrias altamente reguladas como la médica y financiera puedan utilizarlo con confianza.
Pruebas de rendimiento superan a GPT-4o, modelo más pequeño y eficiente
En las pruebas de referencia WebVoyager, Fara-7B alcanzó una tasa de finalización de tareas del 73,5%, superior al 65,1% de GPT-4o y al 66,4% de UI-TARS-1.5-7B. Además, Fara-7B requiere un promedio de solo 16 pasos para completar tareas, claramente superior a los 41 pasos de UI-TARS-1.5-7B, logrando un equilibrio óptimo entre precisión y eficiencia.
Fara-7B también introduce un mecanismo de "puntos de control críticos" (critical checkpoints) que pausa automáticamente y solicita confirmación cuando encuentra operaciones relacionadas con datos personales o irreversibles (como enviar correos o transferir dinero), combinado con la interfaz interactiva "Magentic-UI" para proporcionar una línea de defensa segura para la colaboración humano-máquina.
Destilación de conocimiento y entrenamiento con demostraciones de expertos, fortaleciendo el potencial de aprendizaje autónomo
Fara-7B utiliza un método de entrenamiento de "destilación de conocimiento", integrando 145.000 ejemplos exitosos de navegación generados por el sistema multi-agente Magentic-One, comprimiéndolos para el aprendizaje en un único modelo. Además, el modelo base está construido sobre Qwen2.5-VL-7B, con una ventana de contexto de hasta 128.000 tokens, excelente capacidad de alineación de imagen y texto, y un proceso de entrenamiento centrado en imitar operaciones de expertos humanos.
Microsoft indica que en el futuro no perseguirá ciegamente modelos más grandes, sino que se dedicará a crear modelos "pequeños, inteligentes y seguros", y planea introducir aprendizaje por refuerzo (RL) para entrenamiento autodirigido en entornos sandbox sintéticos.
Ya disponible como código abierto, libre para pruebas comerciales pero aún no es un producto oficial
Actualmente, Fara-7B ha sido liberado como código abierto bajo licencia MIT, disponible para descarga en Hugging Face y la plataforma Microsoft Foundry, permitiendo su uso en aplicaciones comerciales. Sin embargo, Microsoft advierte que el modelo aún no cumple con los estándares de implementación en entornos de producción, siendo principalmente adecuado para desarrolladores en pruebas de prototipos y verificación de funcionalidades.
- Lectura adicional: Google lanza WeatherNext 2, el nuevo modelo de IA para pronósticos meteorológicos, disponible primero en Pixel, búsquedas y Gemini
- Lectura adicional: Investigadores descubren un método sencillo para hacer que la IA sea más creativa, aplicable a cualquier modelo de IA como ChatGPT o Gemini
- Lectura adicional: Anthropic presenta Claude Haiku 4.5, un modelo de IA pequeño: solo 1/3 del costo, rendimiento comparable a Sonnet 4, e incluso ligeramente superior en programación


