测评 Grok 4材料约束暴跌25.6分 主榜却逆势升至87分 在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行升至100分、主榜升至87分。单日10题快测下,多维度剧烈波动更可能源于题目抽签而非模型退化。 Grok 4 材料约束 Smoke评测 单日波动 4天前 144
测评 Grok 3 稳定性暴跌 22.5 分:当 AI 遇到真实工程场景就露馅了 Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分,在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分,但遇到真实故障场景时的表现令人担忧。 Grok 3 稳定性测试 工程判断力 AI评测 2026年3月22日 858