NVIDIA Nemotron双塔扩散模型发布,推理速度提升2.42倍保留高保真

NVIDIA近日正式发布Nemotron-Labs-TwoTower扩散语言模型,这一技术突破将显著改变大语言模型的推理效率。模型将原本30B参数的单体结构拆分为双塔架构,支持并行生成token,实测速度提升2.42倍,同时质量保留率高达98.7%。这一成果迅速在X平台引发热议,NVIDIA官方帖文获得数千点赞。

技术核心:双塔并行生成机制

传统自回归模型生成token时需逐个计算,存在明显串行瓶颈。Nemotron双塔模型创新地将网络拆分为两个并行塔结构,一个负责上下文建模,另一个专注token预测,通过扩散过程同步推进,大幅缩短整体延迟。实验数据显示,在同等硬件条件下,30B规模模型推理吞吐量实现翻倍以上增长。

质量与速度的平衡

速度提升往往伴随质量下降,但Nemotron通过精心设计的对齐训练和扩散调度策略,将质量损失控制在1.3%以内。基准测试覆盖MMLU、HumanEval等多个数据集,结果显示模型在数学推理、代码生成等任务上与原版保持高度一致。

行业影响与应用前景

该技术为边缘设备和实时交互场景带来新可能。开发者可借助NVIDIA TensorRT等工具快速部署,降低云端算力成本。分析师指出,双塔架构或将成为下一代扩散语言模型的标准范式,加速AI产品落地。

结语

NVIDIA此举再次展现其在AI基础设施领域的领导力。未来随着更多并行优化技术涌现,大模型推理效率有望持续突破,为产业创造更大价值。