DeepSeek-V4:首日支持推理与强化学习
SGLang 团队宣布,DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈,专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 Hi
SGLang 团队宣布,DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈,专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 Hi
MLCommons 近日发布 MLPerf Client v1.6,这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备,模拟真实生成式 AI 任务,如文本摘要、内容创作和代码分析,提供响应速度和吞吐量
自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、
NVIDIA DGX Spark正式发布一周后,我们与NVIDIA紧密合作,在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型,支持SGLang框架。性能亮眼:GPT-OSS 20B达到约70 tokens/s,GPT-O
Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para
SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode
Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工