SGLang-Diffusion 两个月的进展
自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、
自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、
NVIDIA DGX Spark正式发布一周后,我们与NVIDIA紧密合作,在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型,支持SGLang框架。性能亮眼:GPT-OSS 20B达到约70 tokens/s,GPT-O
Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para
SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode
Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工