Gemini 2.5 Pro在赢政指数Smoke评测中主榜得分从昨日89.79分跌至今日70.53分,降幅19.3分。其中代码执行维度从100.00分降至55.00分,材料约束维度则从77.30分升至89.50分。
数据拆解:单一维度主导跌幅
主榜仅由代码执行与材料约束两个维度构成。今日代码执行55.00分较昨日100.00分下降45分,直接拉低主榜整体表现。材料约束虽然上升12.2分,但不足以抵消代码执行的损失。工程判断从84.00分微降至82.00分,任务表达从86.00分升至90.00分,变化幅度均在5分以内,对主榜影响有限。
Smoke评测特性与波动成因
Smoke评测每日仅10题,每维度2题,样本量小,单日分数标准差天然较大。代码执行维度从满分直接跌至55分,超出过去同类快测常见波动区间。这种变化既可能是题目抽签带来的难度差异,也可能是模型在特定编程任务上的输出一致性出现问题。仅凭单日数据无法区分两者。
材料约束维度今日得分89.50分,高于昨日77.30分,显示模型在遵循材料限制方面的表现反而有所提升。这两项核心维度的反向变动,进一步说明今日结果并非模型整体能力系统性退化,更接近特定维度受试题影响。
是否需要重点关注
单日19.3分主榜跌幅在Smoke评测历史中属于较大波动,但尚未达到连续多日同向下跌的程度。诚信评级仍维持pass,说明模型在基础合规层面未出现新问题。建议在接下来3-5个Smoke评测周期内重点追踪代码执行维度的得分分布,若连续出现低于70分的记录,再考虑启动更深度的多题长周期测试。
目前数据仅显示一次异常波动,尚未构成模型真实退化的充分证据。
数据来源:赢政指数 (YZ Index) | Run #170 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接