测评 Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底 Grok 4 以 WDCD 100.00 分满分排名第一,GPT-5.5 以 62.50 分垫底;R3 崩溃率 12.7%,头部与尾部差距达 37.5 分,Claude 系列本期提升显著。 WDCD 守约测试 模型排行榜 AI合规 7小时前 42