MoE优化相关资讯

携手SGLang：在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts（MoE）模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡，尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化，包括单节点T

SGLang 和 NVIDIA 团队紧密合作，针对 NVIDIA Blackwell 架构优化推理性能，利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性