执行约束失衡相关资讯

GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分

2026-06-20 Smoke轻量评测显示，GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50，主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一，执行与约束双满分。