测评 ROCm支持Miles:AMD GPU上的大规模RL后训练 强化学习(RL)已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持,AMD GPU用户可以在MI300/350级集群上运行现代RL管道,包括分布式rollout和GRPO训练。 LMSYS 强化学习 AMD ROCm 2026年3月24日 455
测评 Miles发布:点燃大规模MoE训练的企业级RL框架 千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。sl LMSYS Miles 强化学习 MoE训练 2026年2月4日 731