GPT-5.5 暴跌 23 分，Claude 两款模型逆袭 34 分：Smoke 7 天数据揭示真实走势

2026年6月7日 22 约3分钟 Winzheng Index

Claude Opus 4.7 稳定性 Smoke 评测诚信评级波动周趋势预测

本周 Smoke 连续 7 天快测最直接的发现是：曾经稳居榜首的 GPT-5.5 执行力均值仅剩 74.6，末日得分 63.89，较首日暴跌 23.1 分，材料约束与代码执行双双走弱。

头部模型集体滑坡，执行力与 grounding 同步回落

GPT-5.5、GPT-o3、Grok 4 三款模型趋势分别为 -23.1、-20.8、-17.2，首日均在 84 分以上，末日却跌至 63-67 分区间。数据表明，它们的 grounding 维度在连续快测中出现明显衰减，单日 10 题里涉及复杂材料约束的题目得分波动最大。这与此前 Full 评测中它们依赖长上下文记忆的特性形成反差，说明 Smoke 快测对 grounding 的敏感度正在上升。

Claude 两款模型完成 30+ 分逆转，稳定性却成隐忧

Claude Opus 4.7 从首日 58.1 飙升至 90.21，趋势 +32.1；Claude Sonnet 4.6 更猛，从 56.44 升至 90.66，趋势 +34.2。两款模型均在第 4 天后进入高位平台，但波动值分别达到 40.8 和 48.3，远高于豆包 Pro 的 21.2。按赢政指数公式，Sonnet 4.6 的稳定性得分已低至约 3.4 分，意味着其回答一致性极差，一天高分、一天低分的情况反复出现。

波动最大模型集中，稳定性低直接影响可信度

除 Claude 外，Gemini 3.1 Pro 波动 43.7、文心一言 4.5 波动 42.9、Qwen3 Max 波动 36.4，均属于高波动组。Gemini 3.1 Pro 均值 76.5，却在第 3 天出现单日 20 分级跳水，随后缓慢回升，显示其 judgment 维度极不稳定。DeepSeek V4 Pro 虽趋势 +8.5、波动仅 17.9，是少数兼顾上升与相对稳定的模型。

诚信评级从 warn/fail 恢复成重要信号

本周 11 个模型里有 9 个出现过 warn 或 fail，Grok 4 甚至短暂 fail 后回到 pass，DeepSeek V4 Pro 则在 warn 与 fail 间两次切换。最终 7 天末尾，所有模型均回到 pass，说明平台对幻觉与事实偏差的检测在持续收紧，但也暴露出部分模型在连续快测中容易“临时抱佛脚”。

下周 Full 评测预判：Claude 高位承压，DeepSeek 与豆包或继续蚕食份额

结合本周 Smoke 趋势，Claude 两款模型若在 Full 评测中无法把波动压到 25 以下，90+ 高分大概率无法维持。GPT-5.5 需在 grounding 维度找回至少 15 分，否则将被豆包 Pro（均值 86.7、波动 21.2）与 DeepSeek V4 Pro（均值 82.7、波动 17.9）进一步挤压。Qwen3 Max 若能把波动降到 25 以内，将成为本周最大黑马。

Smoke 快测已提前敲响警钟：分数可以短期冲高，但稳定性与诚信才是长期入场券。

数据来源：赢政指数 (YZ Index) | Run #152 | 查看原始数据