测评 Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底 Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。 WDCD 守约测试 AI模型评测 守约能力分析 5小时前 49