NVIDIA Nemotron-TwoTower提出扩散语言模型双塔架构

NVIDIA 研究团队发布 Nemotron-TwoTower 论文,提出一种面向语言生成的双塔扩散架构。论文的核心思路是把上下文表示和扩散去噪拆成两个不同模块,而不是让一个网络同时承担两种职责。

在该设计中,一个冻结的自回归上下文塔负责处理干净 token,另一个可训练的扩散去噪塔负责对噪声块进行迭代修正。两者通过交叉注意力连接,使模型能够在保持上下文理解的同时提高并行生成能力。

关键结果 论文基于 Nemotron-3-Nano-30B-A3B 进行实验,训练数据约 2.1T tokens。作者称,Nemotron-TwoTower 保留了自回归基线 98.7% 的质量,同时实现 2.42 倍 wall-clock 生成吞吐提升。

这个结果的意义在于,大语言模型推理瓶颈不一定只能靠更强硬件解决。架构层面的并行生成和去噪设计,也可能带来实际吞吐收益。

仍需注意 这是一项研究发布,不等于已经成为主流部署范式。后续还要看开源权重、推理框架、真实应用延迟和成本表现。


人工复核来源:arXiv