GPT-OSS 20B:MLPerf Training v6.0 的稀疏 MoE 预训练新基准
MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准,用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化,将训练波动显著压低,目标是让成绩更真实反映
MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准,用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化,将训练波动显著压低,目标是让成绩更真实反映
随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架