DeepSeek-V4:首日支持推理与强化学习
SGLang 团队宣布,DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈,专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 Hi
SGLang 团队宣布,DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈,专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 Hi
强化学习(RL)已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持,AMD GPU用户可以在MI300/350级集群上运行现代RL管道,包括分布式rollout和GRPO训练。
千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。sl