R3 崩溃率相关资讯

Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 以 74.22 分位居 WDCD 守约测试首位，GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%，满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑，头部与尾部在压力轮得分差距明显。