SGLang实现确定性推理与可重现RL训练
本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunke
本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunke
我们实现了RL中全FP8采样和训练流程。实验显示,对于MoE模型,使用BF16训练结合FP8 rollout时,模型越大,训练-推理不一致性越严重。相比之下,统一FP8用于训练和rollout,能有效消除量化误差导致的训练-推理不一致,提升
受Kimi K2团队启发,SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化,实现了与BF16全精