测评 Grok 4材料约束暴跌25.6分 四模型主榜满分并列 2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束 Grok 4 材料约束 Smoke评测 执行与约束 16小时前 35