测评 Grok 4 97.44 分登顶,GPT-o3 主榜暴跌 28 分 今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑,Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分,代码执行从 100 直接腰斩至 50,Claude 两款模型同步崩盘,暴露执行能力严重退化。 Grok 4 代码执行 GPT-o3 Claude 系列 17小时前 30