NVIDIA Nemotron-TwoTower提出扩散语言模型双塔架构

2026年7月3日 135 约1分钟 X Hot Topics

NVIDIA Nemotron 扩散语言模型推理优化

NVIDIA 研究团队发布 Nemotron-TwoTower 论文，提出一种面向语言生成的双塔扩散架构。论文的核心思路是把上下文表示和扩散去噪拆成两个不同模块，而不是让一个网络同时承担两种职责。

在该设计中，一个冻结的自回归上下文塔负责处理干净 token，另一个可训练的扩散去噪塔负责对噪声块进行迭代修正。两者通过交叉注意力连接，使模型能够在保持上下文理解的同时提高并行生成能力。

关键结果论文基于 Nemotron-3-Nano-30B-A3B 进行实验，训练数据约 2.1T tokens。作者称，Nemotron-TwoTower 保留了自回归基线 98.7% 的质量，同时实现 2.42 倍 wall-clock 生成吞吐提升。

这个结果的意义在于，大语言模型推理瓶颈不一定只能靠更强硬件解决。架构层面的并行生成和去噪设计，也可能带来实际吞吐收益。

仍需注意这是一项研究发布，不等于已经成为主流部署范式。后续还要看开源权重、推理框架、真实应用延迟和成本表现。

人工复核来源：arXiv

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接