Qwen3 Max主榜暴跌12.9分,代码执行单日跌26.8
在赢政指数2026年6月Smoke评测中,Qwen3 Max主榜从84.92分跌至72.02分,代码执行维度从96.30分暴跌至69.50分,降幅达26.8分,材料约束则小幅上升4.1分。
在赢政指数2026年6月Smoke评测中,Qwen3 Max主榜从84.92分跌至72.02分,代码执行维度从96.30分暴跌至69.50分,降幅达26.8分,材料约束则小幅上升4.1分。
2026-07-04 Smoke轻量评测中,Gemini 2.5 Pro以主榜96.99分(执行100、约束93.3)登顶,Qwen3 Max主榜暴跌12.9分至72.02。GPT-o3与Gemini 2.5 Pro单日分别上涨24分和22
Grok 4 以 91.20 分位列 WDCD 守约排行榜第一,Qwen3 Max 57.48 分垫底,头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%,R3 崩溃率达 16%,v2 锚点题 R3 得分成为区分关键。
Qwen3 Max在今日Smoke评测中代码执行从100.00分跌至50.00分,主榜从74.00分微降至72.50分。材料约束升至100.00分,诚信评级从fail转为pass,单日波动幅度达50分。
Qwen3 Max今日Smoke评测主榜从85.96分跌至74.00分,代码执行持平100.00分,材料约束从68.80分升至95.70分,但工程判断和任务表达双双大跌,诚信评级由pass转为fail。
2026-06-23 Smoke评测显示,Qwen3 Max主榜74分暴跌12分,诚信从pass转为fail。Claude Opus 4.7、Gemini 3.1 Pro、Grok 4三模型以执行100、约束100拿下满分主榜。文心一言4.
赢政指数今日Smoke评测显示,Qwen3 Max材料约束从95.50跌至68.80(-26.7),代码执行从68.80升至100.00(+31.2),主榜从80.82升至85.96(+5.1)。单日10题快测波动正常,但需区分抽签与真实退
赢政指数2026年6月Smoke评测显示,Qwen3 Max主榜从100分跌至80.82分,代码执行维度从100分降至68.80分,降幅31.2分。材料约束仅降4.5分,诚信评级维持pass。单日10题快测下,此类波动需区分抽签因素与真实能
2026-06-21 Smoke评测中,DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4四模型主榜、执行、约束三项均为100分。Qwen3 Max主榜暴跌19.2分至80.82,执行维度从昨日高位跌至
2026年6月19日Smoke评测显示,Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分,主榜升至97.35分;GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分,暴露结构脆弱性。
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。
2026-06-17 Smoke评测显示,Qwen3 Max材料约束暴跌28.9分至71.1,主榜仅73.25分;Claude Opus 4.7以执行与约束双100稳居第一,Gemini 2.5 Pro与GPT-5.5主榜同为98.83分,
Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底。榜首与榜尾相差17.19分,R3崩溃率达25%,满分率仅37.8%。Qwen3 Max R3得分1.59领先,GPT-o3 R3仅0.84,显示三轮
Qwen3 Max WDCD暴涨15分至72.50登顶,DeepSeek V4 Pro同涨15分,Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分,三升三降揭示中文模型守约能力正在快速迭代。
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分
Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。