测评 Grok 4 98.34 分登顶,Claude Opus 主榜暴跌 31.3 分 今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其 Grok 4 Claude Opus 代码执行 模型波动 6小时前 48