Smoke评测相关AI资讯 | 赢政天下 AI

Claude Opus 4.7材料约束暴跌16.5分主榜从96.83降至90.78

在赢政指数2026年6月Smoke评测中，Claude Opus 4.7材料约束从96.00骤降至79.50，主榜从96.83跌至90.78，工程判断同步下滑17.5分，需区分抽签波动与真实退化。

2026年6月13日 236

材料约束集体暴跌20分，Claude Opus 4.7 90.78分守住第一

2026-06-13 Smoke评测显示11个模型中10个代码执行满分，材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一，GPT-5.5材料约束跌至66分，主榜仅84.7分。豆包Pro主榜单日上涨23.

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 215

测评

Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

今日Smoke轻量评测显示，GPT-5.5以92.58分（执行100、约束83.5）继续领跑，豆包Pro紧随其后92.04分。所有前九模型代码执行均满分，排名完全由材料约束拉开，最大差距达19.2分，行业焦点已从“会不会写代码”转向“敢不敢

GPT-5.5 材料约束代码执行满分 Smoke评测

2026年6月9日 299

测评

9模型并列主榜77.5，代码执行满分材料约束却只剩50

今日Smoke轻量评测显示，9款主流模型主榜并列77.5分，代码执行全部拿到100分，材料约束却集体停留在50分，仅文心一言和Claude Sonnet 4.6掉队，暴露当前模型在严格材料遵循上的集体短板。

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 357

测评

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 376

测评

GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

今日Smoke轻量评测显示，GPT-5.5以86.95分位居第一，代码执行100分、材料约束71分。所有前七名模型代码执行均满分，排名完全由材料约束决定；Claude Opus 4.7等后四名执行仅50分，整体差距明显。

GPT-5.5 材料约束 Smoke评测代码执行

2026年6月2日 300

测评

Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

今日Smoke轻量评测显示，Claude Sonnet 4.6以主榜99.78分（执行100，约束99.5）继续领跑，DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 359

测评

文心一言4.5代码执行从100暴跌至50，主榜单日掉11分

文心一言4.5今日Smoke评测主榜从74分跌至62.96分，核心原因是代码执行维度从100分直接腰斩至50分，材料约束小涨4.5分。单日10题抽样下，这种波动究竟是随机题目方差，还是模型真实能力退化，值得拆解。

文心一言4.5 代码执行 Smoke评测百度AI

2026年5月30日 293

测评

文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

今日Smoke轻量评测中，文心一言4.5执行分直接腰斩至50，主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分，Claude Opus 4.7以99.42分继续领跑，材料约束成为拉开差距的关键。

文心一言代码执行 Smoke评测 GPT-o3

2026年5月30日 263

测评

DeepSeek V4 Pro Smoke测试主榜暴涨48.7，工程判断却暴跌28.4

DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99，代码执行从20分直接拉满至100分，但工程判断从38.4暴跌至10分，诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化，值得关注。

DeepSeek V4 Pro 代码执行 Smoke评测模型一致性

2026年5月29日 309

测评

豆包 Pro 代码执行暴跌80分主榜单日掉41.2

豆包 Pro 主榜从81.33暴跌至40.12，代码执行单维度从100直接归零至20，材料约束小涨6.2分。单日抽签波动还是真实能力退化，需要重点关注。

豆包 Pro 代码执行 Smoke评测模型波动

2026年5月28日 408

测评

Gemini 3.1 Pro代码执行暴跌80分，主榜单日掉33.5

Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分，代码执行维度直接从100分崩到20分，材料约束小涨6分，诚信评级从fail转为pass。

Gemini 3.1 Pro 代码执行 Smoke评测单日波动

2026年5月28日 300

测评

Claude Opus 4.7材料约束单日跌15分，Smoke测试波动还是真实退化

Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50，主榜从88.53降至81.78。代码执行保持满分100分，工程判断与任务表达零变化。单日10题抽签下，此类15分级波动是否反映模型真实能力退化，值得持

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年5月27日 310

测评

Claude Sonnet 4.6材料约束暴跌22分，代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5，主榜仅微降2分。代码执行反升至100，单日10题抽签波动与真实能力变化需区分观察。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 355

测评

Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53，材料约束单日暴跌18.3分至74.50，诚信评级从pass转为warn，工程判断小幅回升。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 349

测评

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

文心一言4.5 代码执行 Smoke评测百度大模型

2026年5月25日 278

测评

GPT-o3代码执行暴跌42.5分，主榜单日崩18分

GPT-o3今日Smoke评测主榜从76.05跌至58.08，代码执行从90.00直接腰斩至47.50，工程判断也从50跌到10。单日抽题波动虽属正常，但这一量级的断崖式下跌已超出随机范围，值得重点追踪。

GPT-o3 代码执行 Smoke评测模型波动

2026年5月24日 402

测评

文心一言4.5工程判断从50暴跌至10，主榜却逆涨14.5

文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分，但材料约束暴涨24.7拉动主榜升至88.48，诚信从fail升至warn，单日抽签波动可能是主因。

文心一言4.5 工程判断 Smoke评测百度AI

2026年5月24日 307

测评

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3，涨幅29.7分领跑；GPT-o3 则从94.51 断崖下跌至58.08，降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题，DeepSeek V4

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 401

测评

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示，GPT-o3主榜暴跌18分至58.08，执行分直接腰斩；豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分，快速挤入前五。GPT-5.5以90.3继续领跑，文心一言诚信评级降至warn。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 325

Smoke评测 相关资讯

Claude Opus 4.7材料约束暴跌16.5分 主榜从96.83降至90.78