Smoke快测相关AI资讯 | 赢政天下 AI

GLM-4.6 材料约束 25 分代码执行 88.7 分诚信探针归零

GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分，代码执行 88.70 分、材料约束 25.00 分，诚信评级 fail（探针 0.00）。该模型在 42 个金丝雀探针中全部触发，显示其将虚构

GLM-4.6 材料约束诚信评级 Smoke快测

7小时前 69

测评

豆包 Pro 与 Gemini 3.1 Pro并列88.54分：2026-07-05 Smoke快测数据简报

2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型，豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

赢政指数 Smoke快测 AI评测模型排名

9小时前 93

测评

豆包Pro Smoke评测主榜暴跌18.6分代码执行单日跌38.8

豆包Pro今日Smoke评测主榜从85.91分跌至67.32分，代码执行从83.30分暴跌至44.50分，材料约束反而升至95.20分。单日10题快测中代码执行维度出现大幅波动。

豆包 Pro 代码执行 Smoke快测单日波动

4天前 612

测评

Grok 4 Smoke评测主榜暴跌15.3分代码执行单日跌31.4

赢政指数今日Smoke评测显示，Grok 4主榜从97.98分跌至82.73分，降幅15.3分，其中代码执行从100.00分骤降至68.60分。材料约束和任务表达反而上升，诚信评级维持pass。单日10题快测下，此类波动是否反映真实能力变化

Grok 4 代码执行单日波动 Smoke快测

4天前 151

测评

Claude Opus 4.7 Smoke评测主榜暴跌27.5分，代码执行从100直降50

Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分，代码执行维度从100.00暴跌至50.00分，材料约束保持100.00不变，工程判断从83.40升至100.00，诚信评级维持pass。

Claude Opus 4.7 代码执行 Smoke快测单日波动

2026年6月24日 277

测评

GPT-5.5 Smoke评测主榜暴跌20.5分，代码执行从100直降50

GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分，暴跌20.5分。代码执行从100.00分腰斩至50.00分，材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因，仍需持续观察。

GPT-5.5 代码执行 Smoke快测单日波动

2026年6月20日 245

测评

Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

2026-W24 Smoke三天数据显示，Claude Opus 4.7从96.83跌至69.91，GPT-5.5从92.19升至95.24，成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分，诚信评级反复

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 328

测评

Smoke 7天数据：DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

本周Smoke数据显示，DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分，均值跌至79.8和75；GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频

DeepSeek V4 Pro GPT-5.5 诚信评级波动周趋势分析

2026年5月31日 314

测评

Claude Sonnet 4.6材料约束暴跌15分，Smoke快测主榜下滑6.8

Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5，主榜从88.53降至81.78，诚信评级由pass转为warn。单日-15分变化超出正常抽签波动，需关注是否出现真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 394

测评

Gemini 3.1 Pro主榜暴跌8.5分，代码执行狂降9.5究竟是抽签还是退化

Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01，代码执行单日暴跌9.5分，材料约束下降7.3分。工程判断同步下滑，任务表达却意外上涨20分，稳定性仅31.7分暴露明显波动。

Gemini 3.1 Pro 代码执行 Smoke快测模型波动

2026年5月22日 380

测评

Gemini主榜暴跌23分，Claude Sonnet 4.6以97.5分登顶Smoke快测

今日Smoke轻量评测显示，Claude Sonnet 4.6以97.5分登顶，Gemini 3.1 Pro主榜暴跌23.2分，文心一言4.5诚信评级直接降为Fail，核心执行与约束双维度出现明显分化。

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 335

测评

Qwen3 Max主榜暴跌10.9分，代码执行单日腰斩25分

Qwen3 Max今日Smoke评测主榜从88.75跌至77.84，代码执行从100直接跌到75，诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化，值得重点追踪。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 272

测评

Claude Opus 4.7 Smoke评测主榜暴跌9分，材料约束单日腰斩20分

Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75，材料约束从95分跌至75分，单日损失20分。代码执行保持满分，工程判断小涨，其他维度持平。需区分随机题目波动与真实能力退化。

Claude Opus 4.7 材料约束 Smoke快测性能波动

2026年5月17日 404

Smoke快测 相关资讯

GLM-4.6 材料约束 25 分 代码执行 88.7 分 诚信探针归零