本周 Smoke 连续 7 天快测最直接的发现是:曾经稳居榜首的 GPT-5.5 执行力均值仅剩 74.6,末日得分 63.89,较首日暴跌 23.1 分,材料约束与代码执行双双走弱。
头部模型集体滑坡,执行力与 grounding 同步回落
GPT-5.5、GPT-o3、Grok 4 三款模型趋势分别为 -23.1、-20.8、-17.2,首日均在 84 分以上,末日却跌至 63-67 分区间。数据表明,它们的 grounding 维度在连续快测中出现明显衰减,单日 10 题里涉及复杂材料约束的题目得分波动最大。这与此前 Full 评测中它们依赖长上下文记忆的特性形成反差,说明 Smoke 快测对 grounding 的敏感度正在上升。
Claude 两款模型完成 30+ 分逆转,稳定性却成隐忧
Claude Opus 4.7 从首日 58.1 飙升至 90.21,趋势 +32.1;Claude Sonnet 4.6 更猛,从 56.44 升至 90.66,趋势 +34.2。两款模型均在第 4 天后进入高位平台,但波动值分别达到 40.8 和 48.3,远高于豆包 Pro 的 21.2。按赢政指数公式,Sonnet 4.6 的稳定性得分已低至约 3.4 分,意味着其回答一致性极差,一天高分、一天低分的情况反复出现。
波动最大模型集中,稳定性低直接影响可信度
除 Claude 外,Gemini 3.1 Pro 波动 43.7、文心一言 4.5 波动 42.9、Qwen3 Max 波动 36.4,均属于高波动组。Gemini 3.1 Pro 均值 76.5,却在第 3 天出现单日 20 分级跳水,随后缓慢回升,显示其 judgment 维度极不稳定。DeepSeek V4 Pro 虽趋势 +8.5、波动仅 17.9,是少数兼顾上升与相对稳定的模型。
诚信评级从 warn/fail 恢复成重要信号
本周 11 个模型里有 9 个出现过 warn 或 fail,Grok 4 甚至短暂 fail 后回到 pass,DeepSeek V4 Pro 则在 warn 与 fail 间两次切换。最终 7 天末尾,所有模型均回到 pass,说明平台对幻觉与事实偏差的检测在持续收紧,但也暴露出部分模型在连续快测中容易“临时抱佛脚”。
下周 Full 评测预判:Claude 高位承压,DeepSeek 与豆包或继续蚕食份额
结合本周 Smoke 趋势,Claude 两款模型若在 Full 评测中无法把波动压到 25 以下,90+ 高分大概率无法维持。GPT-5.5 需在 grounding 维度找回至少 15 分,否则将被豆包 Pro(均值 86.7、波动 21.2)与 DeepSeek V4 Pro(均值 82.7、波动 17.9)进一步挤压。Qwen3 Max 若能把波动降到 25 以内,将成为本周最大黑马。
Smoke 快测已提前敲响警钟:分数可以短期冲高,但稳定性与诚信才是长期入场券。
数据来源:赢政指数 (YZ Index) | Run #152 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接