性能优化相关AI资讯 | 赢政天下 AI

SGLang 的智能体辅助开发初探

SGLang 团队总结了智能体在高性能推理框架开发中的初步实践：将 CUDA 调试、性能分析、扩散模型接入、基准测试、生产事故复盘等流程沉淀为可执行的 SKILL.md、脚本和评审闭环，让 Agent 不再只写代码，而是按工程协议持续收集证

LMSYS SGLang Agent开发 AI基础设施

2026年7月4日 408

测评

异构CPU+GPU EPD解耦提升VLM服务性能

Intel与SGLang团队合作，通过Dynamo和SGLang实现了异构Encode-Prefill-Decode（EPD）解耦方案，用于视觉语言模型（VLM）服务优化。方案将视觉编码任务卸载至CPU（尤其是头节点CPU），利用Intel

LMSYS VLM服务 EPD解耦 SGLang

2026年6月29日 257

测评

DeepSeek-V4：首日支持推理与强化学习

SGLang 团队宣布，DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈，专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 Hi

LMSYS 深度学习强化学习开源技术

2026年4月26日 988

测评

MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

MLCommons 近日发布 MLPerf Client v1.6，这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备，模拟真实生成式 AI 任务，如文本摘要、内容创作和代码分析，提供响应速度和吞吐量

MLC MLPerf Client AI基准测试性能优化

2026年4月7日 847

测评

SGLang-Diffusion 两个月的进展

自2025年11月初发布以来，SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化，SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、

LMSYS AI技术深度学习性能优化

2026年2月4日 1,248

测评

NVIDIA DGX Spark上优化GPT-OSS：释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后，我们与NVIDIA紧密合作，在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型，支持SGLang框架。性能亮眼：GPT-OSS 20B达到约70 tokens/s，GPT-O

LMSYS NVIDIA DGX Spark GPT-OSS SGLang

2026年2月4日 1,639

测评

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Para

LMSYS Mini-SGLang LLM推理 SGLang

2026年2月4日 1,255

测评

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构，将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离，实现视觉编码容量的独立水平扩展，提升资源利用率。该方案兼容现有的 Prefill-Decode

LMSYS SGLang EPD VLMs

2026年2月4日 1,882

测评

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略，涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术，在代理编码工

LMSYS GLM4-MoE SGLang 性能优化

2026年2月4日 1,192

性能优化 相关资讯