GB200 NVL72部署DeepSeek优化(二):预填充3.8倍、解码4.8倍吞吐量
GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术
GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术
SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性