测评 SGLang 中 Waterfill 与 LPLB 优化 DeepEP MoE 负载均衡 本文介绍 SGLang 中针对 DeepEP MoE 推理的两种调度时负载均衡方案:Waterfill 和 LPLB。Waterfill 通过将共享专家动态分配给负载较低的 rank,在 DeepSeek-V3/R1 类工作负载下吞吐提升 LMSYS MoE SGLang 负载均衡 7小时前 14