SkyRL dodaje obsługę RL wizyjno-językowego dla modeli multimodalnych

Joerg Hiller 24 kwi 2026 16:33

SkyRL wprowadza uczenie ze wzmocnieniem w zakresie wizji i języka, umożliwiając skalowalne szkolenie dla zadań multimodalnych. Dowiedz się, jak wpływa to na rozwój AI.

SkyRL dodaje obsługę RL wizyjno-językowego dla modeli multimodalnych

SkyRL, biblioteka uczenia ze wzmocnieniem (RL) opracowana przez Sky Computing Lab UC Berkeley i Anyscale, ogłosiła wsparcie dla treningu po wstępnym (post-training) modeli wizyjno-językowych (VLM). Ta aktualizacja umożliwia zespołom trenowanie modeli multimodalnych przy użyciu nadzorowanego dostrajania (SFT) i przepływów pracy RL, odpowiadając na rosnące zapotrzebowanie na modele zdolne do jednoczesnego przetwarzania danych wizualnych i tekstowych.

Obciążenia multimodalne, takie jak zadania z zakresu wizji komputerowej, robotyki i rozumowania agentycznego, wymagają od modeli przetwarzania danych wizualnych, podejmowania działań i adaptacji na podstawie informacji zwrotnych. Nowa funkcjonalność SkyRL sprawia, że modele VLM stają się pełnoprawnym elementem jego stosu treningowego, dostarczając narzędzi do skalowania treningu na lokalnych GPU lub klastrach wielowęzłowych. Opiera się to na istniejącej infrastrukturze SkyRL, która już obsługuje złożone zadania agentyczne, takie jak benchmarki inżynierii oprogramowania i generowanie Text-to-SQL.

Kluczowe funkcje aktualizacji

Jednym z głównych wyzwań w RL dla zadań wizyjno-językowych jest utrzymanie spójności między treningiem a inferencją. SkyRL rozwiązuje problem dryftu logarytmu prawdopodobieństwa — powszechnego przy przetwarzaniu danych wizualnych — poprzez wprowadzenie zdezagregowanego potoku. Używając stosu inferencji vLLM jako źródła prawdy, platforma zapewnia spójność tokenizacji i przygotowania danych wejściowych we wszystkich przepływach pracy.

To podejście nie tylko stabilizuje trening, ale także umożliwia niezależne skalowanie pracowników CPU do przetwarzania danych wejściowych, zapewniając, że przepustowość GPU nie jest wąskim gardłem. Aktualizacja obsługuje również gotowe przepisy dla zadań takich jak nawigacja Maze2D i Geometry-3k, zbiór danych wymagający wizualnego rozumowania geometrycznego. Wczesne wyniki wykazały poprawę stabilności treningu nawet dla większych rozmiarów modeli, takich jak Qwen3-VL 8B Instruct.

Implikacje dla rozwoju AI

SkyRL pozycjonuje się jako preferowana platforma dla skalowalnego RL i SFT w trenowaniu modeli multimodalnych. Poprzez integrację z narzędziami takimi jak Tinker API, użytkownicy mogą wdrażać przepływy pracy RL we własnej infrastrukturze, zmniejszając zależność od zewnętrznych dostawców. Jest to szczególnie istotne biorąc pod uwagę rosnące wymagania obliczeniowe związane z trenowaniem dużych modeli.

Te postępy pojawiają się w czasie, gdy multimodalne systemy AI są bardzo poszukiwane w zastosowaniach rzeczywistych. Zadania wymagające sekwencyjnego podejmowania decyzji, wizualnego rozumowania i adaptacyjności — takie jak autonomiczna nawigacja i dynamiczna interakcja z narzędziami — mogą znacznie skorzystać. Modułowa konstrukcja SkyRL obsługuje również szybkie prototypowanie, umożliwiając badaczom i programistom eksperymentowanie z nowymi algorytmami i paradygmatami treningu.

Perspektywy na przyszłość

Plan działania SkyRL obejmuje funkcje takie jak pakowanie sekwencji, obsługa backendu Megatron i trening długiego kontekstu z równoległością kontekstu. Oczekuje się, że te ulepszenia jeszcze bardziej wzmocnią jego możliwości w zakresie obsługi złożonych obciążeń agentycznych. Dla programistów chcących zagłębić się w trening VLM, SkyRL oferuje samouczki i dokumentację ułatwiające rozpoczęcie pracy.

Ponieważ branża AI coraz częściej włącza systemy multimodalne do praktycznych zastosowań, zdolność do efektywnego trenowania i dostrajania takich modeli będzie kluczowym wyróżnikiem. Najnowsza aktualizacja SkyRL odzwierciedla jego zaangażowanie w pozostawanie na czele tej ewolucji, zapewniając skalowalną i modułową platformę dla najnowocześniejszych badań RL i wdrożeń.

Źródło obrazu: Shutterstock

skyrl
uczenie ze wzmocnieniem
modele wizyjno-językowe
trening ai

SkyRL dodaje obsługę RL wizualno-językowego dla modeli multimodalnych

SkyRL dodaje obsługę RL wizyjno-językowego dla modeli multimodalnych

Kluczowe funkcje aktualizacji

Implikacje dla rozwoju AI

Perspektywy na przyszłość

Możesz także polubić

Niszczyciel USA przechwytuje irański statek, wpływając na rynek Cieśniny Ormuz

Eksport ropy naftowej z USA bije rekordy, gdy konflikt z Iranem zakłóca globalne dostawy

Azizi z Iranu: Brak rozmów nuklearnych podczas wizyty w Pakistanie, rynek odzwierciedla impas

Popularne wiadomości

Szanse na IPO SpaceX rosną w obliczu przewidywanej fali IPO OpenAI o wartości 3 bln dolarów

ETF-y Bitcoin i Ethereum notują wpływy w wysokości 37,8 mln USD w obliczu napięć USA-Iran

Aktywa Cardano Foundation spadają o 45%, gdy cena ADA kontynuuje spadki

Liderzy Pi Network dołączają do Consensus Miami, aby dyskutować o blockchain i AI

'Środek ostrożności' – Wrapped Bitcoin (wBTC) zaostrza bezpieczeństwo po exploicie KelpDAO wartym 293 mln dolarów

Wiadomości na żywo 24/7

Ceny kryptowalut