谷歌DeepMind发布DiffusionGemma：本地AI运行速度飙升4倍

2026年6月11日 896 约3分钟 Ars Technica

谷歌DeepMind DiffusionGemma 扩散模型本地AI 文本生成

在AI领域，扩散模型（Diffusion Models）一直以图像生成见长——从DALL·E到Stable Diffusion，它们通过逐步去噪从随机噪声中还原出逼真的图像。但谷歌DeepMind最新发布的DiffusionGemma模型打破了这一固有认知：它首次将扩散机制引入文本生成，并在本地设备上实现了比传统Transformer模型快4倍的推理速度。

从图像到文本：扩散模型的跨界革新

传统文本生成模型（如GPT系列）基于自回归机制，逐词预测下一个token。这种方式虽然精确，但计算成本高、延迟大，特别是在本地设备上运行大语言模型（LLM）时，显存和算力成为瓶颈。DiffusionGemma借鉴了图像扩散模型的思路：它从一个完全随机化的文本向量开始，通过多步迭代去噪，逐步逼近目标输出。与自回归模型不同，扩散过程可以并行处理多个token，从而大幅缩短生成时间。

据Ars Technica报道，DiffusionGemma基于谷歌开源的Gemma系列轻量级模型，并针对扩散架构进行了专门优化。在标准基准测试中，DiffusionGemma在保持与同尺寸自回归模型相近的生成质量（如困惑度、BLEU分数）的同时，推理速度提升了约4倍。更重要的是，这还是在完全本地的设备上实现的，无需联网或调用云端API。

“扩散范式在图像领域已经证明了其强大，现在我们看到它同样适用于文本。DiffusionGemma的核心贡献在于，它证明了去噪过程不仅能还原像素，还能结构化地重建语言。” —— DeepMind研究团队负责人

行业背景：本地AI的痛点与破局

当前，大语言模型（如GPT-4、Claude）虽然能力强大，但主要依赖云端推理。对于隐私敏感场景（如医疗、金融）或离线应用（如车载助手、翻译笔），本地AI是刚需。然而，本地设备的算力和内存限制使得全尺寸模型难以部署。为此，业界采取了多种策略：模型量化、知识蒸馏、稀疏激活等。扩散模型提供了另一种思路：通过非自回归生成，绕过逐token的计算依赖。

事实上，学界对非自回归文本生成早有探索（如Mask-Predict、CMLM），但一直存在生成质量和长度可控性不足的问题。DiffusionGemma通过引入连续时间扩散过程和精心设计的噪声调度，在质量和速度之间取得了更好的平衡。根据谷歌DeepMind公布的论文，该模型在SQuAD、WMT等数据集上的表现与同等规模的Transformer相当，但延迟降低了75%。

编者按：扩散时代的可能性

DiffusionGemma的出现，预示着AI推理范式的又一次转向。当图像和文本领域都开始共享扩散方法时，多模态统一模型的门槛可能进一步降低。想象一下，未来的AI系统可以用同一种去噪框架处理图像、文本、音频甚至3D数据，这将极大简化模型架构设计。

当然，扩散模型在文本生成上仍有局限性：例如，对于需要严格因果逻辑的长篇推理任务（如数学证明、代码生成），逐词自回归仍可能更优。但DiffusionGemma已经展示了在实时交互、批量生成等场景的巨大潜力。它可能是通往更高效、更隐私的本地AI的关键一步。

本文编译自Ars Technica

谷歌DeepMind发布DiffusionGemma：本地AI运行速度飙升4倍

从图像到文本：扩散模型的跨界革新

行业背景：本地AI的痛点与破局

编者按：扩散时代的可能性

相关文章