GLM4-MoE 生产优化:SGLang 实现 TTFT 加速 65%
Novita AI 基于 SGLang 为 GLM4-MoE 模型开发了一套经过生产验证的高影响力优化方案。通过端到端性能优化策略,涵盖从内核执行效率到跨节点数据传输调度等全流程瓶颈,集成 Shared Experts Fusion 与 S
Novita AI 基于 SGLang 为 GLM4-MoE 模型开发了一套经过生产验证的高影响力优化方案。通过端到端性能优化策略,涵盖从内核执行效率到跨节点数据传输调度等全流程瓶颈,集成 Shared Experts Fusion 与 S
SGLang-JAX 现已支持 inclusionAI 的 Ling-2.6-1T 在 TPU v7x 上高效部署。通过分析发现 Mixture-of-Experts(MoE)路径是主要瓶颈。全新 Fused MoE V2 内核将 scat