SGLang-JAX 在 TPU 上优化 Ling-2.6-1T:单 Pallas 内核隐藏 MoE 数据移动
SGLang-JAX 现已支持 inclusionAI 的 Ling-2.6-1T 在 TPU v7x 上高效部署。通过分析发现 Mixture-of-Experts(MoE)路径是主要瓶颈。全新 Fused MoE V2 内核将 scat
SGLang-JAX 现已支持 inclusionAI 的 Ling-2.6-1T 在 TPU v7x 上高效部署。通过分析发现 Mixture-of-Experts(MoE)路径是主要瓶颈。全新 Fused MoE V2 内核将 scat
SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎,完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构,利用Jax编译模型前向传播,实现快速原生TPU推理,同时支持连续批处理、前缀缓存、张量并行、专家并行、