MoE模型相关AI资讯 | 赢政天下 AI

DeepSeek-V3：MLPerf Training v6.0的大规模MoE预训练基准

随着大型语言模型（LLM）开发日益采用稀疏计算，评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准，这是一个拥有671B总参数的Mixture-of-Experts（MoE）架

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在I

KTransformers项目为Mixture-of-Experts（MoE）模型的CPU/GPU混合推理提供了一系列优化，显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制，KTransformers解决了传统混合推理

SGLang宣布首日支持MiniMax全新旗舰模型M2，这是一款紧凑、高速且成本效益高的MoE模型，总参数2300亿、活跃参数仅100亿，专为编码和代理任务打造顶级性能，同时保持强大通用智能。尽管高效注意力机制理论诱人，MiniMax团队在

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型，该模型采用混合 Transformer-Mamba 架构与 MoE 设计，总参数 30B、激活参数仅 3.6B，支持 1M 上下文长度。在 NVFP4