测评 11模型代码执行集体暴跌,GPT-5.5 95.24分领跑Smoke轻量榜 2026-06-14 Smoke评测显示,GPT-5.5主榜95.24分(执行96、约束94.3)位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分,主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行 GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测 6小时前 59