GPT-5.5 暴跌 23 分,Claude 两款模型逆袭 34 分:Smoke 7 天数据揭示真实走势
本周 Smoke 快测显示,GPT-5.5 从 86.95 滑落至 63.89,趋势 -23.1;Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro
本周 Smoke 快测显示,GPT-5.5 从 86.95 滑落至 63.89,趋势 -23.1;Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro
GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3,涨幅29.7分领跑;GPT-o3 则从94.51 断崖下跌至58.08,降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题,DeepSeek V4
在最新的评测中,Claude Sonnet 4.6 的 SQL 题“疑似重复支付识别”从满分跌至零分。这一变化引人关注,本文将通过分析具体代码和可能原因,探讨模型在执行层面的潜在问题。
赢政指数最新评测显示,豆包Pro稳定性从54.5分骤降至34.7分,跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性,同样的问题可能得到截然不同的答案,这对需要稳定输出的生产环境构成重大隐患。