Qwen3 Max主榜暴跌12分至74，诚信fail拉低整体

2026年6月23日 21 约2分钟 Winzheng Index

Qwen3 Max 材料约束 Smoke轻量评测分数结构异常波动

2026-06-23 Smoke轻量评测中，Qwen3 Max主榜74分，执行100分、材料约束95.7分，诚信直接fail，较昨日主榜下降12分，成为11个模型中唯一低于80分的模型。

满分模型与约束短板并存

Claude Opus 4.7、Gemini 3.1 Pro、Grok 4三模型主榜均为100分，执行与材料约束双双100，诚信pass，形成当前唯一无短板组合。DeepSeek V4 Pro紧随其后，主榜99.37分，执行100、约束98.6，同样pass。

文心一言4.5主榜98.74分，执行100、约束97.2，诚信warn。豆包Pro主榜98.07分，执行100、约束95.7，pass。GPT-o3主榜96.81分，执行100、约束92.9，pass。Gemini 2.5 Pro与GPT-5.5并列主榜96.18分，执行均为100，约束均为91.5，pass。Claude Sonnet 4.6主榜94.87分，执行100、约束88.6，pass。

执行维度一致，约束决定排序

11个模型执行维度全部打出100分，公式中0.55权重部分已无差异，材料约束0.45权重成为唯一排序依据。约束得分从100分到88.6分，再到Qwen3 Max的95.7分却因fail被大幅拉低，显示诚信评级对最终主榜的直接惩罚。

昨日对比中，文心一言4.5主榜上涨50.8分，约束从低位回升51.7分；Gemini 2.5 Pro主榜上涨24.9分，约束变动-5.9分；Qwen3 Max约束上升26.9分但主榜仍下降12分，说明约束提升不足以抵消诚信fail带来的扣分。

异常信号指向诚信门槛

Qwen3 Max是唯一诚信fail模型，主榜74分远低于其约束95.7分对应的理论值，表明fail直接触发了额外扣分机制。Claude Sonnet 4.6约束88.6分仍保持pass，主榜94.87分，显示pass门槛对排名的保护作用。

执行全满、约束分化、诚信一票否决，是本次Smoke评测最清晰的分数结构特征。

当执行不再产生差异，材料约束与诚信评级共同决定谁能留在第一梯队。

数据来源：赢政指数 (YZ Index) | Run #194 | 查看原始数据

Qwen3 Max主榜暴跌12分至74，诚信fail拉低整体

满分模型与约束短板并存

执行维度一致，约束决定排序

异常信号指向诚信门槛

相关文章