2026-06-23 Smoke轻量评测中,Qwen3 Max主榜74分,执行100分、材料约束95.7分,诚信直接fail,较昨日主榜下降12分,成为11个模型中唯一低于80分的模型。
满分模型与约束短板并存
Claude Opus 4.7、Gemini 3.1 Pro、Grok 4三模型主榜均为100分,执行与材料约束双双100,诚信pass,形成当前唯一无短板组合。DeepSeek V4 Pro紧随其后,主榜99.37分,执行100、约束98.6,同样pass。
文心一言4.5主榜98.74分,执行100、约束97.2,诚信warn。豆包Pro主榜98.07分,执行100、约束95.7,pass。GPT-o3主榜96.81分,执行100、约束92.9,pass。Gemini 2.5 Pro与GPT-5.5并列主榜96.18分,执行均为100,约束均为91.5,pass。Claude Sonnet 4.6主榜94.87分,执行100、约束88.6,pass。
执行维度一致,约束决定排序
11个模型执行维度全部打出100分,公式中0.55权重部分已无差异,材料约束0.45权重成为唯一排序依据。约束得分从100分到88.6分,再到Qwen3 Max的95.7分却因fail被大幅拉低,显示诚信评级对最终主榜的直接惩罚。
昨日对比中,文心一言4.5主榜上涨50.8分,约束从低位回升51.7分;Gemini 2.5 Pro主榜上涨24.9分,约束变动-5.9分;Qwen3 Max约束上升26.9分但主榜仍下降12分,说明约束提升不足以抵消诚信fail带来的扣分。
异常信号指向诚信门槛
Qwen3 Max是唯一诚信fail模型,主榜74分远低于其约束95.7分对应的理论值,表明fail直接触发了额外扣分机制。Claude Sonnet 4.6约束88.6分仍保持pass,主榜94.87分,显示pass门槛对排名的保护作用。
执行全满、约束分化、诚信一票否决,是本次Smoke评测最清晰的分数结构特征。
当执行不再产生差异,材料约束与诚信评级共同决定谁能留在第一梯队。
数据来源:赢政指数 (YZ Index) | Run #194 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接