MoE 相关资讯

GPT-OSS 20B：MLPerf Training v6.0 的稀疏 MoE 预训练新基准

MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准，用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化，将训练波动显著压低，目标是让成绩更真实反映

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 El