测评 2个零执行暴雷,Claude守住88.75分 今日Smoke快测出现强烈分化:9个模型代码执行满分,但文心一言4.5、Grok 4执行归零;Claude Opus 4.7以88.75居首,材料约束成为真正分水岭。 Claude Opus 4.7 材料约束 Smoke评测 诚信评级 8小时前 50