RL训练相关资讯

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力，以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子，SGLang实现了完全确定性推理，同时兼容chunke

LMSYS SGLang 确定性推理 RL训练

2026年2月4日 806

统一FP8：超越混合精度，实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升

LMSYS FP8 RL训练 MoE模型

2026年2月4日 677

单H200部署1TB模型：INT4 QAT RL端到端实践

受Kimi K2团队启发，SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化，实现了与BF16全精

LMSYS INT4 QAT 量化感知训练 RL训练

2026年2月4日 671