NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8

Jessie A Ellis 23:41, 20 апреля 2026

Новый рецепт FP8 от NVIDIA для обучения с подкреплением обеспечивает обучение на 48% быстрее при сохранении точности BF16, значительно снижая затраты на инфраструктуру ИИ.

NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8

NVIDIA выпустила комплексный рецепт точности FP8 для обучения с подкреплением, который обеспечивает до 48% более высокую пропускную способность обучения при сохранении точности наравне с традиционными подходами BF16 — разработка со значительными последствиями для затрат на инфраструктуру ИИ и экономики вычислений GPU.

Техника, подробно описанная в техническом блоге Гуюэ Хуан из NVIDIA, решает одну из самых сложных проблем обучения RL: числовое несоответствие между фазами генерации и обучения при использовании различных уровней точности в отдельных движках.

Технический прорыв

Традиционные конвейеры RL используют vLLM для развертываний и Megatron Core для обучения — каждый с уникальными ядрами CUDA, которые вносят кумулятивные числовые различия. Эти расхождения усиливаются при более низких уровнях точности, исторически ограничивая внедрение FP8.

Решение NVIDIA? Применять FP8 последовательно как для генерации, так и для обучения, вместо смешивания уровней точности. Тестирование на Llama 3.1 8B Instruct показало точность валидации 0,613 со сквозным FP8 против 0,616 для BF16 — фактически устраняя разрыв. Между тем, использование FP8 только для генерации снизило точность до 0,586.

Рецепт использует блочно-квантованный FP8 (формат E4M3) с детализацией 128x128 для весов и 1x128 для активаций. Линейные слои выполняют математику FP8 с теоретической пиковой пропускной способностью в 2 раза по сравнению с BF16, в то время как внимание, нормализация и нелинейные функции остаются в BF16.

Реальные прирост производительности

Только для линейных слоев рецепт FP8 обеспечивает стабильное улучшение пропускной способности на 15-25%. Разрыв между теоретическим ускорением в 2 раза и фактическими приростами возникает из-за того, что слои внимания остаются в BF16, плюс накладные расходы ядра квантования.

Расширение FP8 на кэш KV и операции внимания увеличивает общее ускорение до приблизительно 48% по сравнению с базовыми показателями BF16. Загвоздка: постоянно обновляющиеся веса политики RL требуют динамической рекалибровки шкал квантования после каждого шага обучения. Подход NVIDIA добавляет примерно 2-3% накладных расходов для этой рекалибровки — незначительная цена за существенное ускорение.

Тестирование на Qwen3-30B (модель смеси экспертов) показало совпадающие кривые точности между конфигурациями FP8 и BF16, что предполагает масштабируемость техники в разных архитектурах.

Почему это важно для экономики ИИ

Обучение RL для моделей с возможностями рассуждения, таких как те, что стоят за продвинутыми ассистентами ИИ, требует массивных вычислений. Ускорение на 48% напрямую преобразуется в сокращение GPU-часов и более низкие счета за электричество для организаций, обучающих эти системы.

Техника важностной выборки, которая обеспечивает сохранение точности, может оказаться не менее ценной. Исправляя несоответствия распределения между моделями генерации и обучения на основе отдельных токенов, она позволяет агрессивное снижение точности без ущерба для качества модели.

Полная реализация доступна в открытой библиотеке NeMo RL от NVIDIA с предварительно настроенными рецептами для моделей Llama 3.1 8B и Moonlight 16B. Продвинутые пользователи могут тонко настроить подход — сохраняя определенные слои трансформера в BF16 или переключаясь на коэффициенты масштабирования степени 2 для дополнительной оптимизации.

Для операторов инфраструктуры ИИ, наблюдающих рост затрат на вычисления наряду со сложностью модели, это представляет значимый рычаг эффективности, который не требует обновления оборудования — только более умное использование существующих возможностей H100.

Источник изображения: Shutterstock

nvidia
обучение ИИ
точность fp8
машинное обучение
nemo rl

NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8

NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8

Технический прорыв

Реальные прирост производительности

Почему это важно для экономики ИИ

Вам также может быть интересно

Кандидат Трампа на спасение американской экономики столкнулся с огромным препятствием

Ripple ставит цель на 2028 год сделать XRP Ledger устойчивым к квантовым вычислениям

Morgan Stanley ETF на Биткоин привлёк свыше $100 млн за первую неделю

Популярные новости

Сенатор Тиллис призывает Банковский комитет Сената продвинуть законопроект о структуре крипторынка в мае

Инвестиционный бум в разведение тилапии в Руанде стимулирует развитие аквакультуры

Токен Rave рухнул на 95% на фоне обвинений в манипуляциях, вызвавших панику

Прогноз цены токена экосистемы Polygon – Цена POL, по оценкам, упадет до $ 0,072935 к 25 апреля 2026 года

Bitmine покупает 101 тыс. ETH, приближаясь к цели в 5% предложения

Новости 24/7 в прямом эфире

Быстрое чтение

Биткойн опустился ниже 75 тысяч долларов: переговоры в Иране рухнули, крипторынки готовятся к удару

BEEG против PEPE: может ли эта монета Sui Meme повторить крупнейшее ралли Crypto?

BEEG против BONK: какая монета Meme имеет более взрывной потенциал роста в 2026 году?

293 миллиона долларов исчезли за 46 минут: взлом моста Kelp DAO, который нарушил самые большие предположения DeFi

Прогноз цены BEEG на 2026 год: насколько высоко может подняться синий кит в этом году?

Цены на криптовалюту