本地推理相关资讯

谷歌开源DiffusionGemma 260亿参数模型本地生成速度提升4倍

谷歌DeepMind于2026年6月11日发布DiffusionGemma模型，总参数260亿，采用混合专家架构，推理仅激活约38亿参数。在NVIDIA H100上文本生成速度超过1000 token/秒，较传统自回归模型快约4倍。该模型支

赢政研究院（Winzheng Research Lab）今日发布2026年第一季度《DeepSeek最佳运行硬件排行榜》，首次将数据中心级GPU、消费级显卡、苹果笔记本与一部2018年产旧手机放在同一张考卷上进行AI推理实测。结果显示：售价