Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距
Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底。榜首与榜尾相差17.19分,R3崩溃率达25%,满分率仅37.8%。Qwen3 Max R3得分1.59领先,GPT-o3 R3仅0.84,显示三轮
Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底。榜首与榜尾相差17.19分,R3崩溃率达25%,满分率仅37.8%。Qwen3 Max R3得分1.59领先,GPT-o3 R3仅0.84,显示三轮
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
在AI能力趋同的时代,守约能力(模型遵守承诺的可靠性)将成为关键指标。欧盟AI法案和中国算法治理强调合规,赢政天下(winzheng.com)的YZ Index WDCD测试率先量化此维度。企业选型将从跑分转向可控性,预测1年内主流评测跟进