测评 WDCD守约榜70分三雄并列第一 文心一言50分崩盘垫底 Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑,文心一言4.5仅50分垫底。R3崩溃率高达59.1%,满分率仅29.1%,头部与尾部差距达20分,Grok 4单期暴涨10.8分。 WDCD 守约测试 AI模型排行 约束遵守 6小时前 62
测评 从Prompt Injection到WDCD:我们测的不是攻击,而是日常 WDCD不同于传统提示注入或越狱测试,它关注的是普通工作流中用户自设约束如何被模型放弃。Run #105中Q239全部11/11模型在正常业务压力下将FastAPI约束改为Flask,没有任何恶意注入,只有一句"先给我能跑的"就击穿了防线。 WDCD Prompt Injection 越狱测试 工作纪律 2026年5月8日 212