测评 Claude Opus 4.7 94.82 分登顶,Gemini 3.1 Pro 暴跌 32.2 分 2026-07-01 Smoke 轻量评测显示,Claude Opus 4.7 以 94.82 分(执行 94.5,约束 95.2)占据主榜首位,Claude Sonnet 4.6 紧随其后。Gemini 3.1 Pro 主榜暴跌 32.2 Claude Opus 代码执行 模型排名 执行约束失衡 8小时前 47