SkyRL introduce învățarea prin întărire vizual-lingvistică, permițând antrenamente scalabile pentru sarcini multimodale. Aflați cum influențează aceasta dezvoltarea AI. (Citiți mai mult)SkyRL introduce învățarea prin întărire vizual-lingvistică, permițând antrenamente scalabile pentru sarcini multimodale. Aflați cum influențează aceasta dezvoltarea AI. (Citiți mai mult)

SkyRL Adaugă Suport RL pentru Viziune-Limbaj pentru Modele Multimodale

2026/04/25 00:33
3 min de lectură
Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la [email protected]

SkyRL Adaugă Suport RL pentru Viziune-Limbaj în Modelele Multimodale

Joerg Hiller Apr 24, 2026 16:33

SkyRL introduce învățarea prin consolidare viziune-limbaj, permițând antrenarea scalabilă pentru sarcini multimodale. Aflați cum influențează aceasta dezvoltarea IA.

SkyRL Adaugă Suport RL pentru Viziune-Limbaj în Modelele Multimodale

SkyRL, o bibliotecă de învățare prin consolidare (RL) dezvoltată de Sky Computing Lab de la UC Berkeley și Anyscale, a anunțat suport pentru post-antrenarea modelelor viziune-limbaj (VLM). Această actualizare permite echipelor să antreneze modele multimodale folosind fluxuri de lucru de reglare fină supervizată (SFT) și RL, răspunzând cererii crescânde de modele capabile să gestioneze date vizuale și textuale în tandem.

Sarcinile multimodale precum viziunea computerizată, robotica și raționamentul agențial necesită ca modelele să proceseze intrări vizuale, să ia acțiuni și să se adapteze pe baza feedback-ului. Noua funcționalitate a SkyRL face din VLM-uri un element de prim rang în stiva sa de antrenare, oferind instrumente pentru scalarea antrenării pe GPU-uri locale sau clustere multi-nod. Aceasta se bazează pe infrastructura existentă a SkyRL, care suportă deja sarcini agențiale complexe, cum ar fi benchmark-uri de inginerie software și generarea Text-to-SQL.

Caracteristici Cheie ale Actualizării

Una dintre provocările centrale ale RL pentru sarcinile viziune-limbaj este menținerea consistenței între antrenare și inferență. SkyRL abordează deriva probabilității logaritmice—frecventă la procesarea intrărilor vizuale—prin introducerea unui pipeline dezagregat. Folosind stiva de inferență vLLM ca sursă de adevăr, platforma asigură că tokenizarea și pregătirea intrărilor rămân consecvente în toate fluxurile de lucru.

Această abordare nu numai că stabilizează antrenarea, dar permite și scalarea independentă a lucrătorilor CPU pentru procesarea intrărilor, asigurând că debitul GPU nu este îngustat. Actualizarea suportă, de asemenea, rețete gata de utilizare pentru sarcini precum navigarea Maze2D și Geometry-3k, un set de date ce necesită raționament geometric vizual. Rezultatele timpurii au arătat o stabilitate îmbunătățită a antrenării chiar și la dimensiuni mai mari de model, cum ar fi Qwen3-VL 8B Instruct.

Implicații pentru Dezvoltarea IA

SkyRL se poziționează ca o platformă de referință pentru RL și SFT scalabile în antrenarea modelelor multimodale. Prin integrarea cu instrumente precum Tinker API, utilizatorii pot implementa fluxuri de lucru RL pe propria infrastructură, reducând dependențele față de furnizorii externi. Acest lucru este deosebit de relevant având în vedere cerințele de calcul tot mai mari ale antrenării modelelor mari.

Aceste progrese vin într-un moment în care sistemele IA multimodale sunt foarte solicitate pentru aplicații din lumea reală. Sarcinile care necesită luarea deciziilor secvențiale, raționamentul vizual și adaptabilitatea—cum ar fi navigarea autonomă și interacțiunea dinamică cu instrumente—vor beneficia semnificativ. Designul modular al SkyRL suportă, de asemenea, prototiparea rapidă, permițând cercetătorilor și dezvoltatorilor să experimenteze cu noi algoritmi și paradigme de antrenare.

Privind Înainte

Foaia de parcurs a SkyRL include funcții precum împachetarea secvențelor, suportul backend Megatron și antrenarea cu context lung cu paralelism de context. Aceste îmbunătățiri sunt așteptate să sporească în continuare capacitățile sale pentru gestionarea sarcinilor agențiale complexe. Pentru dezvoltatorii dornici să se aventureze în antrenarea VLM, SkyRL oferă tutoriale și documentație pentru a-i ajuta să înceapă.

Pe măsură ce industria IA incorporează tot mai mult sisteme multimodale în cazuri de utilizare practice, capacitatea de a antrena și regla fin eficient astfel de modele va fi un diferențiator cheie. Cea mai recentă actualizare a SkyRL reflectă angajamentul său de a rămâne în fruntea acestei evoluții, oferind un cadru scalabil și modular pentru cercetarea și implementarea RL de ultimă generație.

Sursă imagine: Shutterstock
  • skyrl
  • învățare prin consolidare
  • modele viziune-limbaj
  • antrenare ia
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează [email protected] pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.

Roll the Dice & Win Up to 1 BTC

Roll the Dice & Win Up to 1 BTCRoll the Dice & Win Up to 1 BTC

Invite friends & share 500,000 USDT!