Qwen3 Max材料约束暴跌26.7分,代码执行却升至100分
赢政指数今日Smoke评测显示,Qwen3 Max材料约束从95.50跌至68.80(-26.7),代码执行从68.80升至100.00(+31.2),主榜从80.82升至85.96(+5.1)。单日10题快测波动正常,但需区分抽签与真实退
赢政指数今日Smoke评测显示,Qwen3 Max材料约束从95.50跌至68.80(-26.7),代码执行从68.80升至100.00(+31.2),主榜从80.82升至85.96(+5.1)。单日10题快测波动正常,但需区分抽签与真实退
2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一,文心一言4.5主榜仅47.98分暴跌40.3分,Gemini 2.5 Pro主榜71.33分大降28分,Qwen3 Max材料约束跌26.7分,执行与
2026-06-21 Smoke评测中,DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4四模型主榜、执行、约束三项均为100分。Qwen3 Max主榜暴跌19.2分至80.82,执行维度从昨日高位跌至
豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分,主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分,诚信评级仍为 pass。
GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分,主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分,诚信评级维持pass。单日10题快测下,此类波动是否反映真实退化值得追踪。
2026年6月19日Smoke评测显示,Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分,主榜升至97.35分;GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分,暴露结构脆弱性。
在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行升至100分、主榜升至87分。单日10题快测下,多维度剧烈波动更可能源于题目抽签而非模型退化。
2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束
Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。
2026-06-17 Smoke评测显示,Qwen3 Max材料约束暴跌28.9分至71.1,主榜仅73.25分;Claude Opus 4.7以执行与约束双100稳居第一,Gemini 2.5 Pro与GPT-5.5主榜同为98.83分,
今日Smoke评测中,豆包Pro材料约束从84.80降至60.80,跌24分;代码执行从38.40升至100.00,主榜从59.28升至82.36。单日10题快测下,两个核心维度出现极端反向波动,需区分题目抽签与真实能力变化。
赢政指数今日Smoke评测显示,Grok 4材料约束从83.00降至61.30,跌21.7分,而代码执行从80.90升至100.00,主榜微升0.7分至82.59。单日10题快测下,此幅度波动是否为抽签随机还是真实能力变化值得追踪。
2026年6月15日Smoke评测显示,11个模型材料约束平均下滑30分以上,Grok 4以主榜82.59分(执行100、约束61.3)暂居第一,豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分,执行从97
赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。
在赢政指数2026年6月Smoke评测中,Claude Opus 4.7材料约束从96.00骤降至79.50,主榜从96.83跌至90.78,工程判断同步下滑17.5分,需区分抽签波动与真实退化。
2026-06-13 Smoke评测显示11个模型中10个代码执行满分,材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一,GPT-5.5材料约束跌至66分,主榜仅84.7分。豆包Pro主榜单日上涨23.
今日 Smoke 快测中,Gemini 3.1 Pro 以 96.96 分夺冠,Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分,拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅
今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢