GPT-5.5 Smoke评测主榜暴跌20.5分,代码执行从100直降50
GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分,暴跌20.5分。代码执行从100.00分腰斩至50.00分,材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因,仍需持续观察。
GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分,暴跌20.5分。代码执行从100.00分腰斩至50.00分,材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因,仍需持续观察。
Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察
11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成
DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99,代码执行从20分直接拉满至100分,但工程判断从38.4暴跌至10分,诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化,值得关注。
DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass,主榜从 74.00 跃升至 97.08,材料约束单项上涨 23.5 分。单日 10 题快测下,这种幅度变化究竟是抽签运气还是真实能力回暖,需
豆包Pro本周评测显示稳定性维度大幅下跌19.8分至34.7分,成为各维度中唯一负增长指标。分析发现模型在相同问题上给出差异化回答,反映出内部决策机制可能存在随机性过高的问题。
赢政指数最新评测显示,豆包Pro稳定性从54.5分骤降至34.7分,跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性,同样的问题可能得到截然不同的答案,这对需要稳定输出的生产环境构成重大隐患。