NVIDIA NeMo RL достигает ускорения на 48% благодаря сквозному обучению с точностью FP8
Jessie A Ellis 23:41, 20 апреля 2026
Новый рецепт FP8 от NVIDIA для обучения с подкреплением обеспечивает обучение на 48% быстрее при сохранении точности BF16, значительно снижая затраты на инфраструктуру ИИ.
NVIDIA выпустила комплексный рецепт точности FP8 для обучения с подкреплением, который обеспечивает до 48% более высокую пропускную способность обучения при сохранении точности наравне с традиционными подходами BF16 — разработка со значительными последствиями для затрат на инфраструктуру ИИ и экономики вычислений GPU.
Техника, подробно описанная в техническом блоге Гуюэ Хуан из NVIDIA, решает одну из самых сложных проблем обучения RL: числовое несоответствие между фазами генерации и обучения при использовании различных уровней точности в отдельных движках.
Технический прорыв
Традиционные конвейеры RL используют vLLM для развертываний и Megatron Core для обучения — каждый с уникальными ядрами CUDA, которые вносят кумулятивные числовые различия. Эти расхождения усиливаются при более низких уровнях точности, исторически ограничивая внедрение FP8.
Решение NVIDIA? Применять FP8 последовательно как для генерации, так и для обучения, вместо смешивания уровней точности. Тестирование на Llama 3.1 8B Instruct показало точность валидации 0,613 со сквозным FP8 против 0,616 для BF16 — фактически устраняя разрыв. Между тем, использование FP8 только для генерации снизило точность до 0,586.
Рецепт использует блочно-квантованный FP8 (формат E4M3) с детализацией 128x128 для весов и 1x128 для активаций. Линейные слои выполняют математику FP8 с теоретической пиковой пропускной способностью в 2 раза по сравнению с BF16, в то время как внимание, нормализация и нелинейные функции остаются в BF16.
Реальные прирост производительности
Только для линейных слоев рецепт FP8 обеспечивает стабильное улучшение пропускной способности на 15-25%. Разрыв между теоретическим ускорением в 2 раза и фактическими приростами возникает из-за того, что слои внимания остаются в BF16, плюс накладные расходы ядра квантования.
Расширение FP8 на кэш KV и операции внимания увеличивает общее ускорение до приблизительно 48% по сравнению с базовыми показателями BF16. Загвоздка: постоянно обновляющиеся веса политики RL требуют динамической рекалибровки шкал квантования после каждого шага обучения. Подход NVIDIA добавляет примерно 2-3% накладных расходов для этой рекалибровки — незначительная цена за существенное ускорение.
Тестирование на Qwen3-30B (модель смеси экспертов) показало совпадающие кривые точности между конфигурациями FP8 и BF16, что предполагает масштабируемость техники в разных архитектурах.
Почему это важно для экономики ИИ
Обучение RL для моделей с возможностями рассуждения, таких как те, что стоят за продвинутыми ассистентами ИИ, требует массивных вычислений. Ускорение на 48% напрямую преобразуется в сокращение GPU-часов и более низкие счета за электричество для организаций, обучающих эти системы.
Техника важностной выборки, которая обеспечивает сохранение точности, может оказаться не менее ценной. Исправляя несоответствия распределения между моделями генерации и обучения на основе отдельных токенов, она позволяет агрессивное снижение точности без ущерба для качества модели.
Полная реализация доступна в открытой библиотеке NeMo RL от NVIDIA с предварительно настроенными рецептами для моделей Llama 3.1 8B и Moonlight 16B. Продвинутые пользователи могут тонко настроить подход — сохраняя определенные слои трансформера в BF16 или переключаясь на коэффициенты масштабирования степени 2 для дополнительной оптимизации.
Для операторов инфраструктуры ИИ, наблюдающих рост затрат на вычисления наряду со сложностью модели, это представляет значимый рычаг эффективности, который не требует обновления оборудования — только более умное использование существующих возможностей H100.
Источник изображения: Shutterstock- nvidia
- обучение ИИ
- точность fp8
- машинное обучение
- nemo rl








