测评 PD-Multiplexing:GreenContext驱动的高好吞吐LLM服务新范式 本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和 LMSYS PD-Multiplexing GreenContext SGLang 2026年2月4日 727