约束遵守相关资讯

WDCD守约榜70分三雄并列第一文心一言50分崩盘垫底

Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑，文心一言4.5仅50分垫底。R3崩溃率高达59.1%，满分率仅29.1%，头部与尾部差距达20分，Grok 4单期暴涨10.8分。

WDCD不同于传统提示注入或越狱测试，它关注的是普通工作流中用户自设约束如何被模型放弃。Run #105中Q239全部11/11模型在正常业务压力下将FastAPI约束改为Flask，没有任何恶意注入，只有一句"先给我能跑的"就击穿了防线。