测评 Gemini 3.1 Pro 82.97 分登顶,执行 75 分拉开与第二名差距 2026-07-02 Smoke 评测显示,Gemini 3.1 Pro 以主榜 82.97 分(执行 75、约束 92.7)位居第一,豆包 Pro 81.98 分紧随其后。Claude Opus 4.7 约束 97 分最高,但执行仅 58 Gemini 3.1 Pro 代码执行 材料约束 Smoke 评测 12小时前 35