测评 下一代推测解码:DFlash与Spec V2 Modal、Z Lab与SGLang团队联合发布DFlash推测解码模型,搭配SGLang Spec V2引擎,在Qwen 3.5 397B-A17B模型上实现SOTA推理延迟。HumanEval数据集并发1场景下,吞吐量较基线提升4.3倍 LMSYS 推测解码 DFlash SGLang 6小时前 15