性能基准相关资讯

GLM4-MoE 生产优化：SGLang 实现 TTFT 加速 65%

Novita AI 基于 SGLang 为 GLM4-MoE 模型开发了一套经过生产验证的高影响力优化方案。通过端到端性能优化策略，涵盖从内核执行效率到跨节点数据传输调度等全流程瓶颈，集成 Shared Experts Fusion 与 S

SGLang-JAX 现已支持 inclusionAI 的 Ling-2.6-1T 在 TPU v7x 上高效部署。通过分析发现 Mixture-of-Experts（MoE）路径是主要瓶颈。全新 Fused MoE V2 内核将 scat