SkyRL Adaugă Suport RL pentru Viziune-Limbaj în Modelele Multimodale

Joerg Hiller Apr 24, 2026 16:33

SkyRL introduce învățarea prin consolidare viziune-limbaj, permițând antrenarea scalabilă pentru sarcini multimodale. Aflați cum influențează aceasta dezvoltarea IA.

SkyRL Adaugă Suport RL pentru Viziune-Limbaj în Modelele Multimodale

SkyRL, o bibliotecă de învățare prin consolidare (RL) dezvoltată de Sky Computing Lab de la UC Berkeley și Anyscale, a anunțat suport pentru post-antrenarea modelelor viziune-limbaj (VLM). Această actualizare permite echipelor să antreneze modele multimodale folosind fluxuri de lucru de reglare fină supervizată (SFT) și RL, răspunzând cererii crescânde de modele capabile să gestioneze date vizuale și textuale în tandem.

Sarcinile multimodale precum viziunea computerizată, robotica și raționamentul agențial necesită ca modelele să proceseze intrări vizuale, să ia acțiuni și să se adapteze pe baza feedback-ului. Noua funcționalitate a SkyRL face din VLM-uri un element de prim rang în stiva sa de antrenare, oferind instrumente pentru scalarea antrenării pe GPU-uri locale sau clustere multi-nod. Aceasta se bazează pe infrastructura existentă a SkyRL, care suportă deja sarcini agențiale complexe, cum ar fi benchmark-uri de inginerie software și generarea Text-to-SQL.

Caracteristici Cheie ale Actualizării

Una dintre provocările centrale ale RL pentru sarcinile viziune-limbaj este menținerea consistenței între antrenare și inferență. SkyRL abordează deriva probabilității logaritmice—frecventă la procesarea intrărilor vizuale—prin introducerea unui pipeline dezagregat. Folosind stiva de inferență vLLM ca sursă de adevăr, platforma asigură că tokenizarea și pregătirea intrărilor rămân consecvente în toate fluxurile de lucru.

Această abordare nu numai că stabilizează antrenarea, dar permite și scalarea independentă a lucrătorilor CPU pentru procesarea intrărilor, asigurând că debitul GPU nu este îngustat. Actualizarea suportă, de asemenea, rețete gata de utilizare pentru sarcini precum navigarea Maze2D și Geometry-3k, un set de date ce necesită raționament geometric vizual. Rezultatele timpurii au arătat o stabilitate îmbunătățită a antrenării chiar și la dimensiuni mai mari de model, cum ar fi Qwen3-VL 8B Instruct.

Implicații pentru Dezvoltarea IA

SkyRL se poziționează ca o platformă de referință pentru RL și SFT scalabile în antrenarea modelelor multimodale. Prin integrarea cu instrumente precum Tinker API, utilizatorii pot implementa fluxuri de lucru RL pe propria infrastructură, reducând dependențele față de furnizorii externi. Acest lucru este deosebit de relevant având în vedere cerințele de calcul tot mai mari ale antrenării modelelor mari.

Aceste progrese vin într-un moment în care sistemele IA multimodale sunt foarte solicitate pentru aplicații din lumea reală. Sarcinile care necesită luarea deciziilor secvențiale, raționamentul vizual și adaptabilitatea—cum ar fi navigarea autonomă și interacțiunea dinamică cu instrumente—vor beneficia semnificativ. Designul modular al SkyRL suportă, de asemenea, prototiparea rapidă, permițând cercetătorilor și dezvoltatorilor să experimenteze cu noi algoritmi și paradigme de antrenare.

Privind Înainte

Foaia de parcurs a SkyRL include funcții precum împachetarea secvențelor, suportul backend Megatron și antrenarea cu context lung cu paralelism de context. Aceste îmbunătățiri sunt așteptate să sporească în continuare capacitățile sale pentru gestionarea sarcinilor agențiale complexe. Pentru dezvoltatorii dornici să se aventureze în antrenarea VLM, SkyRL oferă tutoriale și documentație pentru a-i ajuta să înceapă.

Pe măsură ce industria IA incorporează tot mai mult sisteme multimodale în cazuri de utilizare practice, capacitatea de a antrena și regla fin eficient astfel de modele va fi un diferențiator cheie. Cea mai recentă actualizare a SkyRL reflectă angajamentul său de a rămâne în fruntea acestei evoluții, oferind un cadru scalabil și modular pentru cercetarea și implementarea RL de ultimă generație.

Sursă imagine: Shutterstock

skyrl
învățare prin consolidare
modele viziune-limbaj
antrenare ia

SkyRL Adaugă Suport RL pentru Viziune-Limbaj pentru Modele Multimodale

SkyRL Adaugă Suport RL pentru Viziune-Limbaj în Modelele Multimodale

Caracteristici Cheie ale Actualizării

Implicații pentru Dezvoltarea IA

Privind Înainte

Poate îți place și

SUA Oferă o Recompensă de 10 Milioane de Dolari în timp ce DOJ Confiscă Peste 700 Milioane de Dolari în Crypto de la Centre de Escrocherii care Vizează Americanii

SUA bombardează siturile nucleare iraniene, soarta stocului de uraniu incertă

Brazilia Emite Interdicție privind Contractele de Predicție a Pieței Non-Financiare

Știri în tendințe

„Precauție" - Wrapped Bitcoin (wBTC) întărește securitatea după exploitul de 293 milioane USD al KelpDAO

Distrugătorul american interceptează o navă iraniană, impactând piața din Strâmtoarea Hormuz

SUA avertizează cu privire la furturile de AI de către firmele chineze, afectând piața modelelor AI Alibaba

Iranul neagă discuțiile directe cu SUA, blocând eforturile de pace de la Islamabad

Ieșirile XRP Cresc pe Măsură ce Modelul de Bază Multi-Anual Semnalează o Posibilă Configurație de Breakout

Știri în timp real 24/7

Prețuri cripto