测评 统一FP8:超越混合精度,实现稳定加速的MoE RL训练 我们实现了RL中全FP8采样和训练流程。实验显示,对于MoE模型,使用BF16训练结合FP8 rollout时,模型越大,训练-推理不一致性越严重。相比之下,统一FP8用于训练和rollout,能有效消除量化误差导致的训练-推理不一致,提升 LMSYS FP8 RL训练 MoE模型 2026年2月4日 677