测评 WDCD守约测试剧震:5模型暴跌最高12.5分,Qwen3 Max逆袭 本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。 WDCD 守约测试 模型更新 指令遵循 10小时前 82