测评 GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分 2026-06-20 Smoke轻量评测显示,GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50,主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一,执行与约束双满分。 GPT-5.5 代码执行 Smoke评测 执行约束失衡 13小时前 33