材料约束相关AI资讯 | 赢政天下 AI

Qwen3 Max材料约束暴跌26.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Qwen3 Max材料约束从95.50跌至68.80（-26.7），代码执行从68.80升至100.00（+31.2），主榜从80.82升至85.96（+5.1）。单日10题快测波动正常，但需区分抽签与真实退

Qwen3 Max 材料约束 Smoke评测得分波动

10小时前 64

测评

文心一言主榜暴跌40.3分，Smoke评测揭露执行约束双崩

2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一，文心一言4.5主榜仅47.98分暴跌40.3分，Gemini 2.5 Pro主榜71.33分大降28分，Qwen3 Max材料约束跌26.7分，执行与

文心一言材料约束 GPT-5.5 Smoke轻量评测

10小时前 75

测评

Qwen3 Max主榜暴跌19.2分四模型执行约束双满分

2026-06-21 Smoke评测中，DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4四模型主榜、执行、约束三项均为100分。Qwen3 Max主榜暴跌19.2分至80.82，执行维度从昨日高位跌至

Qwen3 Max 代码执行 Smoke轻量评测材料约束

1天前 95

测评

豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分，主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分，诚信评级仍为 pass。

豆包 Pro 材料约束 Smoke评测单日波动

3天前 158

测评

GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分，主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分，诚信评级维持pass。单日10题快测下，此类波动是否反映真实退化值得追踪。

GPT-o3 材料约束 Smoke评测单日波动

3天前 165

测评

Smoke评测：Qwen3 Max约束+23分逆袭，GPT-o3材料约束暴跌15.2分

2026年6月19日Smoke评测显示，Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分，主榜升至97.35分；GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分，暴露结构脆弱性。

Qwen3 Max 材料约束 Gemini 3.1 Pro Smoke轻量评测

3天前 141

测评

Grok 4材料约束暴跌25.6分主榜却逆势升至87分

在赢政指数今日Smoke评测中，Grok 4材料约束从96.70分跌至71.10分，降幅25.6分，但代码执行升至100分、主榜升至87分。单日10题快测下，多维度剧烈波动更可能源于题目抽签而非模型退化。

Grok 4 材料约束 Smoke评测单日波动

4天前 158

测评

Grok 4材料约束暴跌25.6分四模型主榜满分并列

2026-06-18 Smoke评测中，Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分，导致主榜仅87分，与满分模型差距13分。执行维度11模型中有10个满分，约束

Grok 4 材料约束 Smoke评测执行与约束

4天前 140

测评

Qwen3 Max材料约束暴跌28.9分主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分，降幅28.9分，但代码执行从50.00分升至75.00分，主榜得分反而升0.8分至73.25分。单日10题快测下，这种波动更可能是题目抽签所致。

Qwen3 Max 材料约束 Smoke评测得分波动

5天前 145

测评

Qwen3 Max材料约束暴跌28.9分，今日Smoke 11模型主榜洗牌

2026-06-17 Smoke评测显示，Qwen3 Max材料约束暴跌28.9分至71.1，主榜仅73.25分；Claude Opus 4.7以执行与约束双100稳居第一，Gemini 2.5 Pro与GPT-5.5主榜同为98.83分，

Qwen3 Max 材料约束 Smoke轻量评测代码执行

5天前 135

测评

豆包Pro材料约束暴跌24分，代码执行却从38.4飙至100

今日Smoke评测中，豆包Pro材料约束从84.80降至60.80，跌24分；代码执行从38.40升至100.00，主榜从59.28升至82.36。单日10题快测下，两个核心维度出现极端反向波动，需区分题目抽签与真实能力变化。

豆包 Pro 材料约束 Smoke测试模型波动

2026年6月15日 295

测评

Grok 4 材料约束暴跌21.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Grok 4材料约束从83.00降至61.30，跌21.7分，而代码执行从80.90升至100.00，主榜微升0.7分至82.59。单日10题快测下，此幅度波动是否为抽签随机还是真实能力变化值得追踪。

Grok 4 材料约束 Smoke评测单日波动

2026年6月15日 273

测评

材料约束暴跌39分，赢政指数11模型主榜集体下滑

2026年6月15日Smoke评测显示，11个模型材料约束平均下滑30分以上，Grok 4以主榜82.59分（执行100、约束61.3）暂居第一，豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分，执行从97

材料约束 Grok 4 Smoke轻量评测主榜波动

2026年6月15日 197

测评

Gemini 2.5 Pro材料约束暴跌15.2分代码执行却飙升45分

赢政指数Smoke评测显示，Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分，降幅15.2分，但代码执行从55.00分升至100.00分，主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。

Gemini 2.5 Pro 材料约束 Smoke评测模型波动

2026年6月13日 186

测评

Claude Opus 4.7材料约束暴跌16.5分主榜从96.83降至90.78

在赢政指数2026年6月Smoke评测中，Claude Opus 4.7材料约束从96.00骤降至79.50，主榜从96.83跌至90.78，工程判断同步下滑17.5分，需区分抽签波动与真实退化。

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年6月13日 187

测评

材料约束集体暴跌20分，Claude Opus 4.7 90.78分守住第一

2026-06-13 Smoke评测显示11个模型中10个代码执行满分，材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一，GPT-5.5材料约束跌至66分，主榜仅84.7分。豆包Pro主榜单日上涨23.

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 184

测评

Gemini 3.1 Pro 96.96 分微弱领先，Claude Opus 4.7 仅差 0.13

今日 Smoke 快测中，Gemini 3.1 Pro 以 96.96 分夺冠，Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分，拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距

2026年6月12日 220

测评

Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

今日 Smoke 评测显示，前 7 名模型代码执行全部拿满 100 分，核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑，文心一言执行分仅 50 分垫底，Qwen3 Max 诚信评级 fail。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 214

测评

Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

今日 Smoke 评测显示，Claude Sonnet 4.6 以 97.53 分登顶，主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分，材料约束却把文心一言甩到最后，差距超过 40 分。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 214

测评

Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

今日Smoke轻量评测显示，GPT-5.5以92.58分（执行100、约束83.5）继续领跑，豆包Pro紧随其后92.04分。所有前九模型代码执行均满分，排名完全由材料约束拉开，最大差距达19.2分，行业焦点已从“会不会写代码”转向“敢不敢

GPT-5.5 材料约束代码执行满分 Smoke评测

2026年6月9日 271

材料约束 相关资讯