Qwen3 Max 相关AI资讯 | 赢政天下 AI

Qwen3 Max主榜暴跌12.9分，代码执行单日跌26.8

在赢政指数2026年6月Smoke评测中，Qwen3 Max主榜从84.92分跌至72.02分，代码执行维度从96.30分暴跌至69.50分，降幅达26.8分，材料约束则小幅上升4.1分。

Qwen3 Max主榜暴跌12.9分 Gemini 2.5 Pro 96.99分领跑Smoke轻量榜

2026-07-04 Smoke轻量评测中，Gemini 2.5 Pro以主榜96.99分（执行100、约束93.3）登顶，Qwen3 Max主榜暴跌12.9分至72.02。GPT-o3与Gemini 2.5 Pro单日分别上涨24分和22

Gemini 2.5 Pro Qwen3 Max Smoke评测代码执行

18小时前 72

测评

Grok 4 91.20 分登顶 WDCD 守约榜，Qwen3 Max 57.48 分垫底拉开 33.72 分差距

Grok 4 以 91.20 分位列 WDCD 守约排行榜第一，Qwen3 Max 57.48 分垫底，头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%，R3 崩溃率达 16%，v2 锚点题 R3 得分成为区分关键。

WDCD 守约测试模型守约能力 Grok 4

1天前 107

测评

Qwen3 Max代码执行暴跌50分，主榜仅降1.5分

Qwen3 Max在今日Smoke评测中代码执行从100.00分跌至50.00分，主榜从74.00分微降至72.50分。材料约束升至100.00分，诚信评级从fail转为pass，单日波动幅度达50分。

Qwen3 Max 代码执行烟雾测试主榜波动

2026年6月24日 270

测评

Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail

Qwen3 Max今日Smoke评测主榜从85.96分跌至74.00分，代码执行持平100.00分，材料约束从68.80分升至95.70分，但工程判断和任务表达双双大跌，诚信评级由pass转为fail。

Qwen3 Max 主榜 Smoke评测材料约束

2026年6月23日 291

测评

Qwen3 Max主榜暴跌12分至74，诚信fail拉低整体

2026-06-23 Smoke评测显示，Qwen3 Max主榜74分暴跌12分，诚信从pass转为fail。Claude Opus 4.7、Gemini 3.1 Pro、Grok 4三模型以执行100、约束100拿下满分主榜。文心一言4.

Qwen3 Max 材料约束 Smoke轻量评测分数结构

2026年6月23日 272

测评

Qwen3 Max材料约束暴跌26.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Qwen3 Max材料约束从95.50跌至68.80（-26.7），代码执行从68.80升至100.00（+31.2），主榜从80.82升至85.96（+5.1）。单日10题快测波动正常，但需区分抽签与真实退

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月22日 229

测评

Qwen3 Max主榜暴跌19.2分，代码执行单日掉31.2分

赢政指数2026年6月Smoke评测显示，Qwen3 Max主榜从100分跌至80.82分，代码执行维度从100分降至68.80分，降幅31.2分。材料约束仅降4.5分，诚信评级维持pass。单日10题快测下，此类波动需区分抽签因素与真实能

Qwen3 Max 代码执行 Smoke评测模型波动

2026年6月21日 342

测评

Qwen3 Max主榜暴跌19.2分四模型执行约束双满分

2026-06-21 Smoke评测中，DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4四模型主榜、执行、约束三项均为100分。Qwen3 Max主榜暴跌19.2分至80.82，执行维度从昨日高位跌至

Qwen3 Max 代码执行 Smoke轻量评测材料约束

2026年6月21日 221

测评

Smoke评测：Qwen3 Max约束+23分逆袭，GPT-o3材料约束暴跌15.2分

2026年6月19日Smoke评测显示，Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分，主榜升至97.35分；GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分，暴露结构脆弱性。

Qwen3 Max 材料约束 Gemini 3.1 Pro Smoke轻量评测

2026年6月19日 222

测评

Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位，豆包Pro以62.50分垫底，头部与尾部相差30分。满分率47.3%，R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位，GPT-o

WDCD 守约测试 Qwen3 Max AI模型守约能力

2026年6月17日 378

测评

Qwen3 Max材料约束暴跌28.9分主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分，降幅28.9分，但代码执行从50.00分升至75.00分，主榜得分反而升0.8分至73.25分。单日10题快测下，这种波动更可能是题目抽签所致。

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月17日 245

测评

Qwen3 Max材料约束暴跌28.9分，今日Smoke 11模型主榜洗牌

2026-06-17 Smoke评测显示，Qwen3 Max材料约束暴跌28.9分至71.1，主榜仅73.25分；Claude Opus 4.7以执行与约束双100稳居第一，Gemini 2.5 Pro与GPT-5.5主榜同为98.83分，

Qwen3 Max 材料约束 Smoke轻量评测代码执行

2026年6月17日 242

测评

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位，GPT-o3以67.19分垫底。榜首与榜尾相差17.19分，R3崩溃率达25%，满分率仅37.8%。Qwen3 Max R3得分1.59领先，GPT-o3 R3仅0.84，显示三轮

WDCD 守约测试 Qwen3 Max 模型对比

2026年6月14日 480

测评

Qwen3 Max 15分暴涨登顶，Claude Opus 7.5分暴跌谁在真守约

Qwen3 Max WDCD暴涨15分至72.50登顶，DeepSeek V4 Pro同涨15分，Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分，三升三降揭示中文模型守约能力正在快速迭代。

WDCD 守约测试 AI模型评测周期变化追踪

2026年5月27日 455

测评

本周11模型大换血：新秀Qwen3 Max68.5分入场老将75分集体退场

本周赢政指数v6主榜出现剧烈更替，DeepSeek V3等6个老模型退出，Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜，最高得分68.5分；豆包Pro代码执行89.8分仍居前列，GPT-o3材料约束单周暴涨18.1分

Qwen3 Max 代码执行模型迭代主榜洗牌

2026年5月18日 305

测评

Qwen3 Max主榜暴跌10.9分，代码执行单日腰斩25分

Qwen3 Max今日Smoke评测主榜从88.75跌至77.84，代码执行从100直接跌到75，诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化，值得重点追踪。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 266

Qwen3 Max 相关资讯