GLM-4.6 材料约束 25 分 代码执行 88.7 分 诚信探针归零
GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分,代码执行 88.70 分、材料约束 25.00 分,诚信评级 fail(探针 0.00)。该模型在 42 个金丝雀探针中全部触发,显示其将虚构
GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分,代码执行 88.70 分、材料约束 25.00 分,诚信评级 fail(探针 0.00)。该模型在 42 个金丝雀探针中全部触发,显示其将虚构
2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。
豆包Pro今日Smoke评测主榜从85.91分跌至67.32分,代码执行从83.30分暴跌至44.50分,材料约束反而升至95.20分。单日10题快测中代码执行维度出现大幅波动。
赢政指数今日Smoke评测显示,Grok 4主榜从97.98分跌至82.73分,降幅15.3分,其中代码执行从100.00分骤降至68.60分。材料约束和任务表达反而上升,诚信评级维持pass。单日10题快测下,此类波动是否反映真实能力变化
Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分,代码执行维度从100.00暴跌至50.00分,材料约束保持100.00不变,工程判断从83.40升至100.00,诚信评级维持pass。
GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分,暴跌20.5分。代码执行从100.00分腰斩至50.00分,材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因,仍需持续观察。
2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复
本周Smoke数据显示,DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分,均值跌至79.8和75;GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频
Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5,主榜从88.53降至81.78,诚信评级由pass转为warn。单日-15分变化超出正常抽签波动,需关注是否出现真实能力退化。
Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01,代码执行单日暴跌9.5分,材料约束下降7.3分。工程判断同步下滑,任务表达却意外上涨20分,稳定性仅31.7分暴露明显波动。
今日Smoke轻量评测显示,Claude Sonnet 4.6以97.5分登顶,Gemini 3.1 Pro主榜暴跌23.2分,文心一言4.5诚信评级直接降为Fail,核心执行与约束双维度出现明显分化。
Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。
Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75,材料约束从95分跌至75分,单日损失20分。代码执行保持满分,工程判断小涨,其他维度持平。需区分随机题目波动与真实能力退化。