推理优化相关AI资讯 | 赢政天下 AI

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术

SGLang最新功能原生支持NVIDIA Model Optimizer量化！这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程，无需多步工具切换。通过SGLang中的ModelOpt API，只需三步即可完成量化（支持NVFP

小米MiMo-V2-Flash模型总参数达309B，激活参数仅15B，专为最大化解码效率而设计，核心采用滑动窗口注意力（SWA）和多层MTP机制。该模型针对真实服务负载优化，支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制，该系统实现了无缝集成、无需核心架构变更、继承现有推理优化，并