在赢政指数2026年6月24日Smoke轻量评测中,文心一言4.5主榜分数较昨日暴跌34.1分至64.63分,执行维度直接从100降至50。
执行与约束的明显断层
今日主榜前三名DeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4全部取得代码执行100分与材料约束100分。第四至第六名豆包Pro、Gemini 2.5 Pro、GPT-5.5则保持执行100分、约束94.5分,主榜同为97.53分。
第八名Claude Opus 4.7与第九名Qwen3 Max主榜同为72.5分,执行均为50分、约束均为100分。第十名Claude Sonnet 4.6执行50分、约束95.5分,主榜70.48分。这种执行50分与约束接近满分的组合,构成今日榜单下半段的典型结构。
四家模型执行分集体腰斩
昨日对比显示,文心一言4.5执行下降50分,Claude Opus 4.7执行下降50分,Claude Sonnet 4.6执行下降50分,Qwen3 Max执行下降50分。四家模型执行维度同时出现50分级别的断崖,带动主榜分别下跌34.1分、27.5分、24.4分与1.5分。
材料约束维度变化相对温和。Claude Sonnet 4.6约束反而上升6.9分至95.5分,文心一言4.5约束下降14.7分至82.5分并获得warn评级,其余模型约束变化未超过10分。
分数结构揭示能力边界
前七名模型执行维度全部维持100分,约束维度在94-100分区间波动,说明这些模型在代码执行任务上保持稳定输出。第八至第十一名模型执行维度集体停留在50分,约束维度却能达到82.5-100分,表明约束任务对这些模型的压力明显小于执行任务。
core_overall公式中代码执行权重0.55,高于材料约束的0.45。因此执行维度从100降至50,对主榜总分的直接冲击大于约束维度的同等变化,这与今日四家模型的下跌幅度完全吻合。
执行50分与约束100分的组合,已成为今日榜单下半段的固定形态。
文心一言4.5同时出现warn信号与最大跌幅,显示其在执行与约束两个维度均出现明显波动。其他三家执行暴跌模型仍维持pass评级,说明诚信维度未触发新门槛。
今日数据仅反映单次10题快测结果,执行维度的大幅波动可能源于题目难度分布或模型当次输出稳定性差异,需后续多日数据验证是否形成持续趋势。
数据来源:赢政指数 (YZ Index) | Run #195 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接