GPT-OSS 20B:MLPerf Training v6.0 的稀疏 MoE 预训练新基准
MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准,用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化,将训练波动显著压低,目标是让成绩更真实反映
MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准,用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化,将训练波动显著压低,目标是让成绩更真实反映
为高效服务大规模 Mixture-of-Experts (MoE) 模型,宽 Expert Parallelism (EP) 策略已成为必需,但其可靠性瓶颈突出:单一硬件故障可能导致整个实例崩溃,重启需数分钟。为此,SGLang 集成 El