SpecBundle与SpecForge v0.2:生产级推测解码模型与框架重磅发布
SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴,推出SpecBundle(Phase 1),这是基于大规模数据集训练的生产级EAGLE3模型检查点集合,旨在提升推测解码的可用性和实际性能,第一阶
SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴,推出SpecBundle(Phase 1),这是基于大规模数据集训练的生产级EAGLE3模型检查点集合,旨在提升推测解码的可用性和实际性能,第一阶
SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode
受Kimi K2团队启发,SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化,实现了与BF16全精
Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工