赢政指数2026年6月对11个模型的实测中,Qwen3 Max今日Smoke评测材料约束得分68.80分,较昨日95.50分下降26.7分,同时代码执行得分升至100.00分。
单日波动幅度与维度拆解
Smoke评测每日仅10题,2题/维度,单日标准差天然较大。Qwen3 Max代码执行+31.2分、任务表达+25分、工程判断+18.7分,三项正向变化合计抵消材料约束跌幅后,主榜仍净增5.1分至85.96分。诚信评级维持pass,未触发门槛。
材料约束维度本次仅2题即出现-26.7分跌幅,说明其中至少一题触发了明显材料越界或格式违规。代码执行满分则显示模型在另一组题目中严格遵循指令、输出正确代码。
抽签波动还是真实退化
若为题目抽签导致,材料约束2题中出现高难度约束违例概率约30%-40%,属于正常范围。真实退化需满足连续多日同维度低分或同类题目反复违规,目前仅单日数据不足以确认退化。
主榜得分上升的事实表明,模型整体输出能力未出现系统性下滑。工程判断与任务表达两项侧榜指标同步提升,也指向模型在指令遵循与结构化输出上保持或略有进步。
是否需要持续关注
单日材料约束-26.7分属于Smoke测试常见波动区间,不构成立即预警。建议连续观察3个交易日同一维度得分,若材料约束连续两日低于75分且标准差持续高于当日水平,再启动深度复测。
目前数据不支持“模型退化”结论,Qwen3 Max整体仍处于主榜中游偏上位置。
一次Smoke测试的26.7分落差,更可能是题目彩票而非模型本身崩盘。
数据来源:赢政指数 (YZ Index) | Run #191 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接