低精度计算相关资讯

统一FP8：超越混合精度，实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升