测评 Claude Opus 4.7材料约束单日跌15分,Smoke测试波动还是真实退化 Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50,主榜从88.53降至81.78。代码执行保持满分100分,工程判断与任务表达零变化。单日10题抽签下,此类15分级波动是否反映模型真实能力退化,值得持 Claude Opus 4.7 材料约束 Smoke评测 单日波动 2026年5月27日 273
测评 Claude Opus 4.7主榜暴跌22.6分,代码执行从100直接腰斩 Claude Opus 4.7今日Smoke评测主榜暴跌22.6分,代码执行从100分直接跌至50分,材料约束反升11分,需区分随机波动与真实能力退化。 Claude Opus 4.7 代码执行 Smoke评测 模型波动 2026年5月19日 260