谷歌开源DiffusionGemma 260亿参数模型本地生成速度提升4倍

谷歌DeepMind在2026年6月11日推出DiffusionGemma模型,总参数达到260亿,属于Gemma开放权重家族的新成员。该模型不采用主流自回归生成方式,而是借鉴图像扩散模型的思路,先用占位符生成一段文本,再通过多轮修正得到最终结果。

技术原理简述

传统聊天机器人按顺序逐个预测token,用户看到文字逐步出现。DiffusionGemma则一次并行处理最多256个token,随后进行修正。这种方法在硬件算力充足时,能显著提高生成速度。官方数据显示,单张NVIDIA H100上速度超过1000 token/秒,GeForce RTX 5090上超过700 token/秒,较同类自回归模型快约4倍。

模型采用混合专家架构,每次推理只激活约38亿参数。这使得它有机会在18GB显存级别的GPU上运行,降低了本地部署门槛。模型支持多模态输入和文本输出,延续了谷歌用可本地部署模型争夺开发者生态的策略。

实际应用场景

对本地AI使用者而言,这意味着隐私敏感或网络不稳定的场景可以更多依赖本机显卡完成文本生成。谷歌将DiffusionGemma放入Gemma开放权重体系,开发者可直接下载权重进行实验。

谷歌称,在专用GPU的低延迟本地推理场景下,其文本生成速度最高可比传统自回归模型快约4倍。

技术影响分析

扩散文本模型此前未成主流,主要因为自然语言对语法顺序和事实约束要求更高。DiffusionGemma证明扩散路线能在开放权重文本模型上实现明显速度优势。

行业关注其对移动端和多模态应用的潜在影响。参数激活比例低的特点,有助于在消费级硬件上运行,这可能推动本地AI应用从云端向端侧迁移。

  • 速度优势明确:并行生成机制减少了顺序依赖。
  • 部署门槛降低:38亿激活参数适合中端GPU。