NVIDIA Nemotron双塔扩散模型发布，推理速度提升2.42倍保留高保真

2026年7月3日 17 约2分钟 X Hot Topics

NVIDIA Nemotron AI推理优化

NVIDIA近日正式发布Nemotron-Labs-TwoTower扩散语言模型，这一技术突破将显著改变大语言模型的推理效率。模型将原本30B参数的单体结构拆分为双塔架构，支持并行生成token，实测速度提升2.42倍，同时质量保留率高达98.7%。这一成果迅速在X平台引发热议，NVIDIA官方帖文获得数千点赞。

技术核心：双塔并行生成机制

传统自回归模型生成token时需逐个计算，存在明显串行瓶颈。Nemotron双塔模型创新地将网络拆分为两个并行塔结构，一个负责上下文建模，另一个专注token预测，通过扩散过程同步推进，大幅缩短整体延迟。实验数据显示，在同等硬件条件下，30B规模模型推理吞吐量实现翻倍以上增长。

质量与速度的平衡

速度提升往往伴随质量下降，但Nemotron通过精心设计的对齐训练和扩散调度策略，将质量损失控制在1.3%以内。基准测试覆盖MMLU、HumanEval等多个数据集，结果显示模型在数学推理、代码生成等任务上与原版保持高度一致。

行业影响与应用前景

该技术为边缘设备和实时交互场景带来新可能。开发者可借助NVIDIA TensorRT等工具快速部署，降低云端算力成本。分析师指出，双塔架构或将成为下一代扩散语言模型的标准范式，加速AI产品落地。

结语

NVIDIA此举再次展现其在AI基础设施领域的领导力。未来随着更多并行优化技术涌现，大模型推理效率有望持续突破，为产业创造更大价值。

NVIDIA Nemotron双塔扩散模型发布，推理速度提升2.42倍保留高保真

技术核心：双塔并行生成机制

质量与速度的平衡

行业影响与应用前景

结语

相关文章