测评 SGLang 中的 Elastic EP:DeepSeek MoE 部署的部分故障容忍 为高效服务大规模 Mixture-of-Experts (MoE) 模型,宽 Expert Parallelism (EP) 策略已成为必需,但其可靠性瓶颈突出:单一硬件故障可能导致整个实例崩溃,重启需数分钟。为此,SGLang 集成 El LMSYS SGLang Elastic EP MoE 2026年3月27日 550