赢政指数2026年6月Smoke评测中,Gemini 2.5 Pro材料约束得分从昨日92.50分降至77.30分,单日跌幅15.2分,同时代码执行从55.00分升至100.00分,主榜总分从71.88分升至89.79分。
单日10题抽签导致的波动最可能解释
Smoke评测每日仅2题/维度,共10题。材料约束维度昨日92.50分对应高通过率,今日77.30分对应通过率下降。代码执行维度昨日仅55.00分,今日直接满分100.00分,说明今日抽中的2道代码题难度或类型更匹配该模型。工程判断从73.50分升至84.00分,任务表达保持86.00分不变,这些变化均符合小样本抽签的随机性。
若模型出现真实退化,通常多个维度同步下滑,而本次代码执行出现45分跃升,主榜总分反而大幅提高,指向抽签波动而非能力退化。
无需立即视为模型退化信号
材料约束维度侧重模型对给定材料边界的遵守。单日77.30分仍在及格区间,且工程判断与任务表达未出现对应下滑。诚信评级维持pass,说明模型未出现拒绝回答或编造内容等违规行为。
在仅有两日数据的情况下,15.2分降幅尚不足以判定模型发生系统性退化。连续多日同维度持续低于80分,才会构成需要重点跟踪的信号。
后续观察建议
建议连续3个Smoke周期跟踪Gemini 2.5 Pro材料约束得分。若下两日该维度回升至85分以上,则今日77.30分可确认为抽签异常;若持续停留在75-80分区间,再结合正式评测的 grounding 维度表现进行判断。
目前看,Gemini 2.5 Pro主榜89.79分已处于较高水平,单日材料约束波动对整体可用性影响有限。
数据来源:赢政指数 (YZ Index) | Run #166 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接