Tony Kim
2025/12/23 21:56
Character.aiは、Squinch、動的クランピング、Gumbel Softmaxなどの技術に焦点を当て、AIモデル訓練の効率を向上させるための大規模事前学習の最適化における革新的な手法を公開しました。
AI分野で注目すべきプレーヤーであるCharacter.aiは、大規模トランスフォーマー訓練を最適化するための初期の取り組みに関する知見を最近共有しました。Character.AI Blogによると、同社はその後オープンソースモデル基盤に焦点を移しましたが、当初は訓練効率と速度を向上させるためのさまざまな技術を探求していました。
勾配圧縮:Squinch
Character.aiの取り組みで強調されている主要な革新の1つは、Squinchとして知られる勾配圧縮アルゴリズムです。共同創設者のNoam Shazeerによって開発されたこの6ビット圧縮技術は、モデルの精度を維持しながら、分散学習中の通信帯域幅を大幅に削減するように設計されました。このアルゴリズムは、勾配を要素あたり6ビットに効果的に圧縮し、訓練クラスターの帯域幅使用を最適化します。
精度正則化:Attention Z-Reg
Character.aiはまた、数値的安定性を確保するためにアテンションロジットに適用される正則化手法であるAttention Z-Regを開発しました。この技術は、大規模モデルの訓練を最適化するために重要なbfloat16表現の精度を維持するのに役立ちます。
量子化安定性:動的クランピング
動的クランピングは、量子化の安定性を向上させるために採用されたもう1つの技術です。入力重みの二乗平均平方根に基づいてクランピング範囲を動的に計算することにより、小さな活性化値がゼロに崩壊するのを防ぎます。この手法は、量子化エラーを削減することで訓練の安定性を向上させます。
効率的なアテンションAPI:Visibility Mask
訓練と推論中のトークン間関係を表現するツールであるVisibility Maskの導入により、訓練システムの効率が向上しました。このAPIは、バッチ内のアテンション範囲の管理を支援し、ツリー構造のドキュメント関係と双方向アテンションをサポートします。
蒸留最適化:Gumbel Softmax
モデル蒸留の領域において、Character.aiは教師モデルの忠実性を維持しながら、ストレージと帯域幅コストを削減するためにGumbel Softmax技術を活用しています。このアプローチには、教師モデル出力のサブセットをサンプリングし、より効率的な学生モデル訓練のためにソフトターゲット値を保持することが含まれます。
Character.aiの事前学習最適化への取り組みは、同社がオープンソースモデル向けの訓練後強化学習に移行する中でも、より効率的なAIモデル訓練への道を開きました。SquinchやGumbel Softmaxを含むこれらの技術は、AI効率性とスケーラビリティを向上させるという同社のコミットメントを強調しています。
画像ソース:Shutterstock
ソース: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


