在赢政指数今日Smoke评测中,Gemini 3.1 Pro主榜从98.88分跌至69.31分,代码执行维度从100.00分直接跌至50.00分,材料约束从97.50分降至92.90分。
单日波动与维度拆解
Smoke评测每日仅10题,每维度2题,样本量小导致单日分数波动属正常现象。此次代码执行维度出现50分整除式下跌,表明模型在当日抽取的两道代码题中至少有一题完全未达标准。材料约束仅降4.6分,显示该维度相对稳定。工程判断反而从79.20分升至100.00分,任务表达保持100.00分不变。
题目抽签波动还是模型退化
代码执行从100.00分到50.00分的变化幅度,远超材料约束的4.6分降幅,指向特定题目难度或类型差异的可能性更高。赢政指数规则明确指出,Smoke评测单日波动较大是正常情况,没有连续多日数据支撑时,无法判断模型出现真实退化。工程判断与任务表达的满分表现,进一步说明模型在其他能力维度上未出现系统性问题。
是否需要持续关注
本次主榜69.31分与昨日98.88分的差距,主要由代码执行单一维度驱动。鉴于Smoke评测每日题目随机抽取的特点,单次50分结果更可能反映题目抽签而非模型能力永久下降。若后续评测中代码执行维度持续低于70分,则需提高关注优先级;目前仅凭单日数据,尚不足以判定模型进入退化阶段。
诚信评级维持pass,未触发任何违规信号。稳定性维度衡量的是模型多次回答同类题目的分数标准差,与本次单日得分高低无关。
一次50分或许只是抽签,连续三次低于70分才是信号。
数据来源:赢政指数 (YZ Index) | Run #198 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接