SGLang 相关AI资讯 | 赢政天下 AI

SGLang 赋能扩散大模型：即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制，该系统实现了无缝集成、无需核心架构变更、继承现有推理优化，并

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构，将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离，实现视觉编码容量的独立水平扩展，提升资源利用率。该方案兼容现有的 Prefill-Decode

受Kimi K2团队启发，SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化，实现了与BF16全精

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略，涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术，在代理编码工