SkyRL представляє навчання з підкріпленням для мовно-візуальних моделей, забезпечуючи масштабування навчання для мультимодальних завдань. Дізнайтеся, як це впливає на розвиток ШІ. (Читати далі)SkyRL представляє навчання з підкріпленням для мовно-візуальних моделей, забезпечуючи масштабування навчання для мультимодальних завдань. Дізнайтеся, як це впливає на розвиток ШІ. (Читати далі)

SkyRL додає підтримку RL для мови та зору в мультимодальних моделях

2026/04/25 00:33
3 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою [email protected]

SkyRL додає підтримку навчання з підкріпленням для мультимодальних моделей на основі зору та мови

Joerg Hiller 24 квітня 2026 16:33

SkyRL представляє навчання з підкріпленням для моделей зору та мови, забезпечуючи масштабоване навчання для мультимодальних завдань. Дізнайтеся, як це впливає на розвиток ШІ.

SkyRL Adds Vision-Language RL Support for Multimodal Models

SkyRL — бібліотека навчання з підкріпленням (RL), розроблена Sky Computing Lab Університету Каліфорнії в Берклі та Anyscale, — оголосила про підтримку дотренування моделей зору та мови (VLM). Це оновлення дає змогу командам навчати мультимодальні моделі за допомогою робочих процесів навчання з учителем (SFT) і RL, відповідаючи на зростаючий попит на моделі, здатні одночасно обробляти візуальні та текстові дані.

Мультимодальні робочі навантаження, як-от завдання комп'ютерного зору, робототехніки та агентного мислення, вимагають від моделей обробки візуальних вхідних даних, виконання дій і адаптації на основі зворотного зв'язку. Нова функціональність SkyRL робить VLM повноцінним елементом стека навчання, надаючи інструменти для масштабування навчання на локальних GPU або кластерах з кількома вузлами. Це базується на наявній інфраструктурі SkyRL, яка вже підтримує складні агентні завдання, зокрема тести з розробки програмного забезпечення та генерацію Text-to-SQL.

Ключові особливості оновлення

Однією з основних проблем RL для завдань зору та мови є підтримка узгодженості між навчанням і інференсом. SkyRL вирішує проблему дрейфу логарифмічної ймовірності — поширену при обробці візуальних вхідних даних — шляхом впровадження розподіленого конвеєра. Використовуючи стек інференсу vLLM як єдине джерело достовірності, платформа забезпечує узгодженість токенізації та підготовки вхідних даних у всіх робочих процесах.

Такий підхід не лише стабілізує навчання, а й дає змогу незалежно масштабувати CPU-воркери для обробки вхідних даних, забезпечуючи відсутність вузьких місць у пропускній здатності GPU. Оновлення також підтримує готові рецепти для таких завдань, як навігація Maze2D і Geometry-3k — набір даних, що вимагає візуального геометричного мислення. Перші результати продемонстрували покращену стабільність навчання навіть при більших розмірах моделей, зокрема Qwen3-VL 8B Instruct.

Вплив на розвиток ШІ

SkyRL позиціонує себе як основну платформу для масштабованого RL та SFT у навчанні мультимодальних моделей. Завдяки інтеграції з такими інструментами, як Tinker API, користувачі можуть розгортати робочі процеси RL на власній інфраструктурі, зменшуючи залежність від зовнішніх провайдерів. Це особливо актуально з огляду на зростаючі обчислювальні вимоги до навчання великих моделей.

Ці досягнення з'являються в той час, коли мультимодальні системи ШІ користуються великим попитом для реальних застосувань. Завдання, що вимагають послідовного прийняття рішень, візуального мислення та адаптивності — зокрема автономна навігація та динамічна взаємодія з інструментами — суттєво виграють від цього. Модульна архітектура SkyRL також підтримує швидке прототипування, дозволяючи дослідникам і розробникам експериментувати з новими алгоритмами та парадигмами навчання.

Погляд у майбутнє

Дорожня карта SkyRL включає такі функції, як упаковка послідовностей, підтримка бекенду Megatron і навчання на довгому контексті з паралелізмом контексту. Очікується, що ці оновлення додатково розширять можливості платформи для обробки складних агентних робочих навантажень. Для розробників, які прагнуть зануритися у навчання VLM, SkyRL пропонує посібники та документацію на допомогу у старті.

Оскільки галузь ШІ дедалі більше впроваджує мультимодальні системи в практичні сценарії використання, здатність ефективно навчати та дотреновувати такі моделі стане ключовою конкурентною перевагою. Останнє оновлення SkyRL відображає його прихильність до перебування на передньому краї цієї еволюції, забезпечуючи масштабований і модульний фреймворк для передових досліджень і розгортання RL.

Джерело зображення: Shutterstock
  • skyrl
  • навчання з підкріпленням
  • моделі зору та мови
  • навчання ШІ
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою [email protected] для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Азізі (Іран): під час візиту до Пакистану переговори щодо ядерної програми не проводились, ринок відображає глухий кут

Азізі (Іран): під час візиту до Пакистану переговори щодо ядерної програми не проводились, ринок відображає глухий кут

Пост «Азізі з Ірану: ядерних переговорів під час візиту до Пакистану не буде, ринок відображає тупик» з'явився на BitcoinEthereumNews.com. Ебрагім Азізі з Ірану заявив, що міністр закордонних справ
Поділитись
BitcoinEthereumNews2026/04/25 12:15
США бомбардують ядерні об'єкти Ірану, доля запасів урану невідома

США бомбардують ядерні об'єкти Ірану, доля запасів урану невідома

Публікація США бомбардують іранські ядерні об'єкти, доля запасів урану невідома з'явилася на BitcoinEthereumNews.com. США завдали бомбових ударів по іранських ядерних об'єктах, залишивши
Поділитись
BitcoinEthereumNews2026/04/25 14:33
Бразилія запроваджує заборону на контракти ринку передбачень нефінансового характеру

Бразилія запроваджує заборону на контракти ринку передбачень нефінансового характеру

Пост Brazil Issues Ban on Non-Financial Prediction Market Contracts з'явився на BitcoinEthereumNews.com. Основні висновки: Національна монетарна рада Бразилії заборонила
Поділитись
BitcoinEthereumNews2026/04/25 13:56

Киньте кубик, виграйте до 1 BTC

Киньте кубик, виграйте до 1 BTCКиньте кубик, виграйте до 1 BTC

Запросіть друзів і розділіть 500 000 USDT