SkyRL додає підтримку навчання з підкріпленням для мультимодальних моделей на основі зору та мови

Joerg Hiller 24 квітня 2026 16:33

SkyRL представляє навчання з підкріпленням для моделей зору та мови, забезпечуючи масштабоване навчання для мультимодальних завдань. Дізнайтеся, як це впливає на розвиток ШІ.

SkyRL Adds Vision-Language RL Support for Multimodal Models

SkyRL — бібліотека навчання з підкріпленням (RL), розроблена Sky Computing Lab Університету Каліфорнії в Берклі та Anyscale, — оголосила про підтримку дотренування моделей зору та мови (VLM). Це оновлення дає змогу командам навчати мультимодальні моделі за допомогою робочих процесів навчання з учителем (SFT) і RL, відповідаючи на зростаючий попит на моделі, здатні одночасно обробляти візуальні та текстові дані.

Мультимодальні робочі навантаження, як-от завдання комп'ютерного зору, робототехніки та агентного мислення, вимагають від моделей обробки візуальних вхідних даних, виконання дій і адаптації на основі зворотного зв'язку. Нова функціональність SkyRL робить VLM повноцінним елементом стека навчання, надаючи інструменти для масштабування навчання на локальних GPU або кластерах з кількома вузлами. Це базується на наявній інфраструктурі SkyRL, яка вже підтримує складні агентні завдання, зокрема тести з розробки програмного забезпечення та генерацію Text-to-SQL.

Ключові особливості оновлення

Однією з основних проблем RL для завдань зору та мови є підтримка узгодженості між навчанням і інференсом. SkyRL вирішує проблему дрейфу логарифмічної ймовірності — поширену при обробці візуальних вхідних даних — шляхом впровадження розподіленого конвеєра. Використовуючи стек інференсу vLLM як єдине джерело достовірності, платформа забезпечує узгодженість токенізації та підготовки вхідних даних у всіх робочих процесах.

Такий підхід не лише стабілізує навчання, а й дає змогу незалежно масштабувати CPU-воркери для обробки вхідних даних, забезпечуючи відсутність вузьких місць у пропускній здатності GPU. Оновлення також підтримує готові рецепти для таких завдань, як навігація Maze2D і Geometry-3k — набір даних, що вимагає візуального геометричного мислення. Перші результати продемонстрували покращену стабільність навчання навіть при більших розмірах моделей, зокрема Qwen3-VL 8B Instruct.

Вплив на розвиток ШІ

SkyRL позиціонує себе як основну платформу для масштабованого RL та SFT у навчанні мультимодальних моделей. Завдяки інтеграції з такими інструментами, як Tinker API, користувачі можуть розгортати робочі процеси RL на власній інфраструктурі, зменшуючи залежність від зовнішніх провайдерів. Це особливо актуально з огляду на зростаючі обчислювальні вимоги до навчання великих моделей.

Ці досягнення з'являються в той час, коли мультимодальні системи ШІ користуються великим попитом для реальних застосувань. Завдання, що вимагають послідовного прийняття рішень, візуального мислення та адаптивності — зокрема автономна навігація та динамічна взаємодія з інструментами — суттєво виграють від цього. Модульна архітектура SkyRL також підтримує швидке прототипування, дозволяючи дослідникам і розробникам експериментувати з новими алгоритмами та парадигмами навчання.

Погляд у майбутнє

Дорожня карта SkyRL включає такі функції, як упаковка послідовностей, підтримка бекенду Megatron і навчання на довгому контексті з паралелізмом контексту. Очікується, що ці оновлення додатково розширять можливості платформи для обробки складних агентних робочих навантажень. Для розробників, які прагнуть зануритися у навчання VLM, SkyRL пропонує посібники та документацію на допомогу у старті.

Оскільки галузь ШІ дедалі більше впроваджує мультимодальні системи в практичні сценарії використання, здатність ефективно навчати та дотреновувати такі моделі стане ключовою конкурентною перевагою. Останнє оновлення SkyRL відображає його прихильність до перебування на передньому краї цієї еволюції, забезпечуючи масштабований і модульний фреймворк для передових досліджень і розгортання RL.

Джерело зображення: Shutterstock

skyrl
навчання з підкріпленням
моделі зору та мови
навчання ШІ

SkyRL додає підтримку RL для мови та зору в мультимодальних моделях

SkyRL додає підтримку навчання з підкріпленням для мультимодальних моделей на основі зору та мови

Ключові особливості оновлення

Вплив на розвиток ШІ

Погляд у майбутнє

Вам також може сподобатися

Азізі (Іран): під час візиту до Пакистану переговори щодо ядерної програми не проводились, ринок відображає глухий кут

США бомбардують ядерні об'єкти Ірану, доля запасів урану невідома

Бразилія запроваджує заборону на контракти ринку передбачень нефінансового характеру

Популярні новини

Шанси на IPO SpaceX зростають на тлі прогнозованої хвилі IPO OpenAI на $3T

ETF Bitcoin та Ethereum отримали $37,8 млн притоку на тлі напруженості між США та Іраном

Лідери Pi Network приєднуються до Consensus Miami для обговорення блокчейну та ШІ

«Запобіжний захід» — Wrapped Bitcoin (wBTC) посилює безпеку після експлойту KelpDAO на $293M

Ескадрений міноносець США перехопив іранське судно, що вплинуло на ринок Ормузької протоки

Новини в реальному часі 24/7

Ціни на криптовалюту