MoE模型相关AI资讯 | 赢政天下 AI

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts（MoE）模型的CPU/GPU混合推理提供了一系列优化，显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制，KTransformers解决了传统混合推理

SGLang宣布首日支持MiniMax全新旗舰模型M2，这是一款紧凑、高速且成本效益高的MoE模型，总参数2300亿、活跃参数仅100亿，专为编码和代理任务打造顶级性能，同时保持强大通用智能。尽管高效注意力机制理论诱人，MiniMax团队在

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型，该模型采用混合 Transformer-Mamba 架构与 MoE 设计，总参数 30B、激活参数仅 3.6B，支持 1M 上下文长度。在 NVFP4