4模型执行分暴跌至50,文心一言主榜狂掉34.1分
2026-06-24 Smoke评测中,文心一言4.5主榜暴跌34.1分至64.63,Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分,核心原因是代码执行从100直接跌至50。今日前三名Dee
2026-06-24 Smoke评测中,文心一言4.5主榜暴跌34.1分至64.63,Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分,核心原因是代码执行从100直接跌至50。今日前三名Dee
Qwen3 Max今日Smoke评测主榜从85.96分跌至74.00分,代码执行持平100.00分,材料约束从68.80分升至95.70分,但工程判断和任务表达双双大跌,诚信评级由pass转为fail。
Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分,暴跌28分,主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分,其他维度持平或微升,诚信评级维持pass。
赢政指数今日Smoke评测显示,Qwen3 Max材料约束从95.50跌至68.80(-26.7),代码执行从68.80升至100.00(+31.2),主榜从80.82升至85.96(+5.1)。单日10题快测波动正常,但需区分抽签与真实退
赢政指数2026年6月Smoke评测显示,Qwen3 Max主榜从100分跌至80.82分,代码执行维度从100分降至68.80分,降幅31.2分。材料约束仅降4.5分,诚信评级维持pass。单日10题快测下,此类波动需区分抽签因素与真实能
2026-06-20 Smoke轻量评测显示,GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50,主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一,执行与约束双满分。
豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分,主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分,诚信评级仍为 pass。
GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分,主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分,诚信评级维持pass。单日10题快测下,此类波动是否反映真实退化值得追踪。
在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行升至100分、主榜升至87分。单日10题快测下,多维度剧烈波动更可能源于题目抽签而非模型退化。
2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束
文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。
Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。
在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。
今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。
2026-06-16 Smoke评测中,Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二,执行66.7分。9个模型代码执行出现-50分暴跌,主榜普遍下滑,Gemini系列执行分跌
赢政指数今日Smoke评测显示,Grok 4材料约束从83.00降至61.30,跌21.7分,而代码执行从80.90升至100.00,主榜微升0.7分至82.59。单日10题快测下,此幅度波动是否为抽签随机还是真实能力变化值得追踪。
Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察
今日Smoke评测中Grok 4代码执行从100.00跌至80.90,主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00,材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。
2026-06-14 Smoke评测显示,GPT-5.5主榜95.24分(执行96、约束94.3)位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分,主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行
赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。