模型一致性相关AI资讯

GPT-5.5 Smoke评测主榜暴跌20.5分，代码执行从100直降50

GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分，暴跌20.5分。代码执行从100.00分腰斩至50.00分，材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因，仍需持续观察。

Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分，代码执行从100.00分直接降至55.00分，材料约束则从77.30分升至89.50分。单日10题快测下，这一45分跌幅超出常规抽签波动范围，值得持续观察

11 个主流模型在同一道 Python 闭包题目上，10 个直接输出 [2, 2, 2]，仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分，暴露了“格式严格性”对最终得分的决定性影响，也显示当前模型在循环变量捕获问题上已形成

DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99，代码执行从20分直接拉满至100分，但工程判断从38.4暴跌至10分，诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化，值得关注。

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需

豆包Pro本周评测显示稳定性维度大幅下跌19.8分至34.7分，成为各维度中唯一负增长指标。分析发现模型在相同问题上给出差异化回答，反映出内部决策机制可能存在随机性过高的问题。

赢政指数最新评测显示，豆包Pro稳定性从54.5分骤降至34.7分，跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性，同样的问题可能得到截然不同的答案，这对需要稳定输出的生产环境构成重大隐患。