原创 NVIDIA Nemotron双塔扩散模型发布,推理速度提升2.42倍保留高保真 NVIDIA推出Nemotron-Labs-TwoTower扩散语言模型,通过将30B参数模型拆分为双塔并行生成token,实现2.42倍速度提升,同时保留98.7%质量。该技术为大模型推理优化提供新方向,相关X帖获数千点赞,引发业界关注。 NVIDIA Nemotron AI推理优化 7小时前 74