Smoke评测相关AI资讯 | 赢政天下 AI

4模型执行分暴跌至50，文心一言主榜狂掉34.1分

2026-06-24 Smoke评测中，文心一言4.5主榜暴跌34.1分至64.63，Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分，核心原因是代码执行从100直接跌至50。今日前三名Dee

代码执行材料约束文心一言4.5 Claude Opus 4.7

3天前 204

测评

Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail

Qwen3 Max今日Smoke评测主榜从85.96分跌至74.00分，代码执行持平100.00分，材料约束从68.80分升至95.70分，但工程判断和任务表达双双大跌，诚信评级由pass转为fail。

Qwen3 Max 主榜 Smoke评测材料约束

4天前 215

测评

Gemini 2.5 Pro主榜暴跌28分，代码执行从100直接腰斩

Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分，暴跌28分，主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分，其他维度持平或微升，诚信评级维持pass。

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

5天前 195

测评

Qwen3 Max材料约束暴跌26.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Qwen3 Max材料约束从95.50跌至68.80（-26.7），代码执行从68.80升至100.00（+31.2），主榜从80.82升至85.96（+5.1）。单日10题快测波动正常，但需区分抽签与真实退

Qwen3 Max 材料约束 Smoke评测得分波动

5天前 191

测评

Qwen3 Max主榜暴跌19.2分，代码执行单日掉31.2分

赢政指数2026年6月Smoke评测显示，Qwen3 Max主榜从100分跌至80.82分，代码执行维度从100分降至68.80分，降幅31.2分。材料约束仅降4.5分，诚信评级维持pass。单日10题快测下，此类波动需区分抽签因素与真实能

Qwen3 Max 代码执行 Smoke评测模型波动

6天前 298

测评

GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分

2026-06-20 Smoke轻量评测显示，GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50，主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一，执行与约束双满分。

GPT-5.5 代码执行 Smoke评测执行约束失衡

2026年6月20日 203

测评

豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分，主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分，诚信评级仍为 pass。

豆包 Pro 材料约束 Smoke评测单日波动

2026年6月19日 209

测评

GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分，主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分，诚信评级维持pass。单日10题快测下，此类波动是否反映真实退化值得追踪。

GPT-o3 材料约束 Smoke评测单日波动

2026年6月19日 217

测评

Grok 4材料约束暴跌25.6分主榜却逆势升至87分

在赢政指数今日Smoke评测中，Grok 4材料约束从96.70分跌至71.10分，降幅25.6分，但代码执行升至100分、主榜升至87分。单日10题快测下，多维度剧烈波动更可能源于题目抽签而非模型退化。

Grok 4 材料约束 Smoke评测单日波动

2026年6月18日 218

测评

Grok 4材料约束暴跌25.6分四模型主榜满分并列

2026-06-18 Smoke评测中，Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分，导致主榜仅87分，与满分模型差距13分。执行维度11模型中有10个满分，约束

Grok 4 材料约束 Smoke评测执行与约束

2026年6月18日 233

测评

文心一言4.5主榜暴跌10.4分，任务表达维度从90分腰斩至46.3

文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分，代码执行从66.70分降至50.00分，任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分，诚信评级从warn转为pass。

文心一言4.5 主榜 Smoke评测维度波动

2026年6月17日 196

测评

Qwen3 Max材料约束暴跌28.9分主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分，降幅28.9分，但代码执行从50.00分升至75.00分，主榜得分反而升0.8分至73.25分。单日10题快测下，这种波动更可能是题目抽签所致。

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月17日 183

测评

豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中，豆包Pro主榜从82.36分跌至72.50分，下滑9.9分。代码执行从100.00分直接跌至50.00分，材料约束则从60.80分升至100.00分，单日波动引发对题目抽签与真实能力稳定性的讨论。

豆包 Pro 代码执行 Smoke评测模型波动

2026年6月16日 246

测评

Claude Sonnet 4.6代码执行从100暴跌至50，主榜降6.9分

今日Smoke评测中，Claude Sonnet 4.6代码执行从100.00骤降至50.00，主榜从79.44跌至72.50；材料约束则从54.30升至100.00，工程判断升至95.90。

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月16日 280

测评

Claude Opus 4.7 100分称王，9模型代码执行暴跌50分

2026-06-16 Smoke评测中，Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二，执行66.7分。9个模型代码执行出现-50分暴跌，主榜普遍下滑，Gemini系列执行分跌

Claude Opus 4.7 代码执行 Smoke评测主榜排名

2026年6月16日 239

测评

Grok 4 材料约束暴跌21.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Grok 4材料约束从83.00降至61.30，跌21.7分，而代码执行从80.90升至100.00，主榜微升0.7分至82.59。单日10题快测下，此幅度波动是否为抽签随机还是真实能力变化值得追踪。

Grok 4 材料约束 Smoke评测单日波动

2026年6月15日 317

测评

Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3

Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分，代码执行从100.00分直接降至55.00分，材料约束则从77.30分升至89.50分。单日10题快测下，这一45分跌幅超出常规抽签波动范围，值得持续观察

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 281

测评

Grok 4代码执行暴跌19.1分，主榜下滑7.7，抽签还是退化

今日Smoke评测中Grok 4代码执行从100.00跌至80.90，主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00，材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 262

测评

11模型代码执行集体暴跌，GPT-5.5 95.24分领跑Smoke轻量榜

2026-06-14 Smoke评测显示，GPT-5.5主榜95.24分（执行96、约束94.3）位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分，主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 295

测评

Gemini 2.5 Pro材料约束暴跌15.2分代码执行却飙升45分

赢政指数Smoke评测显示，Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分，降幅15.2分，但代码执行从55.00分升至100.00分，主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。

Gemini 2.5 Pro 材料约束 Smoke评测模型波动

2026年6月13日 214

Smoke评测 相关资讯