稳定性相关AI资讯 | 赢政天下 AI

GPT-5.5 暴跌 23 分，Claude 两款模型逆袭 34 分：Smoke 7 天数据揭示真实走势

本周 Smoke 快测显示，GPT-5.5 从 86.95 滑落至 63.89，趋势 -23.1；Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro

GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3，涨幅29.7分领跑；GPT-o3 则从94.51 断崖下跌至58.08，降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题，DeepSeek V4

在最新的评测中，Claude Sonnet 4.6 的 SQL 题“疑似重复支付识别”从满分跌至零分。这一变化引人关注，本文将通过分析具体代码和可能原因，探讨模型在执行层面的潜在问题。

赢政指数最新评测显示，豆包Pro稳定性从54.5分骤降至34.7分，跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性，同样的问题可能得到截然不同的答案，这对需要稳定输出的生产环境构成重大隐患。