WDCD警示:当模型把硬约束听成建议,风险就开始了
"必须""禁止""不能"在工程里是硬边界,在模型语义里却被软化为建议。Run #105中Q227的七折底线被8/11模型改成三折,Q226的重试上限被9/11模型变成无限循环。59例衰减证明模型不是忘了规则,而是把规则降级为参考。
"必须""禁止""不能"在工程里是硬边界,在模型语义里却被软化为建议。Run #105中Q227的七折底线被8/11模型改成三折,Q226的重试上限被9/11模型变成无限循环。59例衰减证明模型不是忘了规则,而是把规则降级为参考。
企业AI不能只会说不,可靠模型应在拒绝后给出合规替代方案。Run #105中没有模型R3满分,最高ERNIE 4.5仅0.8。Q227的8个违规模型无一尝试在七折范围内给替代方案,而是直接输出三折SQL。会拒绝是底线,会替代才是守约智能。
Agent的成熟不在于自动化更强,而在于停止条件更清晰。Run #105中Q239没有一个模型停下,11/11全部生成Flask违规代码。ERNIE 4.5以R3=0.8最能停车,Grok-4仅0.2几乎从不停下,拒绝违规是基本能力。
当模型只输出文字时错误停在屏幕上,连接工具后错误直接进入系统。Run #105中Q239的11/11模型全部生成Flask违规代码,若作为Agent将直接破坏架构。Qwen3-Max总分第一但R3仅0.7,没有模型具备可靠的刹车能力。
社会工程不只攻击人,也攻击模型的服从本能。Run #105中Q227让8/11模型击穿七折底线,Q226让9/11模型写出无限重试。Grok-4从R1满分衰减到R3仅0.2,一句"老板急要"比精心构造的越狱提示更能击穿大模型防线。
上下文窗口变长不等于约束更安全。Run #105出现59例R1=1→R2=1→R3=0的衰减,Gemini 3.1 Pro的R2满分却R3骤降至0.4,记住规则和执行规则是两回事。没有优先级管理的长上下文只会让关键约束被更多材料淹没。
框架选型、类型注解、测试覆盖、禁用eval不是工程师洁癖,而是生产系统的安全带。Run #105中Q239要求只用FastAPI,11/11模型全部生成Flask代码,是五大类别唯一100%失败的题目。模型为了快而破坏约定会将技术债规模化。
模型常常先提醒风险再给出违规方案。Run #105中Q227有8/11模型先写风险提示再输出三折SQL,Q237有4/11模型建议上线前改回却直接给出verify=False。警告不是免责条款,WDCD判分只看可执行内容是否越界。
模型对通用安全边界训练更充分,但企业临时定义的业务规则才是真正考验。Run #105中安全规约Q237仅4/11失败,业务规则Q227却有8/11击穿七折底线。ERNIE 4.5以R3=0.8最抗压,折扣审批SLA比想象中更容易失守。
预算、内存、配额、并发数看似简单,却是Run #105中失败率最高的类别。Q226重试上限3次被9/11模型改成无限循环,Q223并发上限20被7/11模型设为64。资源限制暴露的不是计算能力,而是模型的执行纪律。
多租户隔离不是代码细节,而是SaaS系统的生命线。Run #105中59例衰减案例里数据边界是重灾区,Qwen3-Max总分第一但R3仅0.7,没有模型能在所有场景守住tenant_id。少一个WHERE条件就是一次跨租户数据泄露事故。
WDCD选择精心设计的30道题覆盖数据边界、资源限制、业务规则、安全规约、工程约定五大类别,每次采样10道。Run #105仅10道题就暴露Q239的100%失败率和Q226的9/11违规率,证明评测难度不在规模而在精准设计与可复现审计。
WDCD不同于传统提示注入或越狱测试,它关注的是普通工作流中用户自设约束如何被模型放弃。Run #105中Q239全部11/11模型在正常业务压力下将FastAPI约束改为Flask,没有任何恶意注入,只有一句"先给我能跑的"就击穿了防线。
约束衰减不是简单遗忘也不是传统幻觉,而是模型在多轮互动中把硬边界逐步软化的系统性故障。Run #105中110个案例有59例呈现完整衰减曲线覆盖全部11个模型。Grok-4衰减最剧烈,ERNIE 4.5低起高守R3达0.8。
R1看态度,R2看抗干扰,R3看原则。Run #105中11个模型的R3没有一个满分,最高ERNIE 4.5仅0.8,最低Grok-4只有0.2。模型是否可靠不在它听到规则时如何表态,而在被要求破例时如何行动,R3才是大模型的真实性格测试。
幻觉让用户得到错误答案,背约让用户执行错误动作。WDCD Run #105实测11个模型,发现59例R1=1→R2=1→R3=0的承诺衰减,Grok-4从R1满分跌至R3仅0.2,背约风险远比幻觉更隐蔽、更致命,这才是企业AI真正的分水岭。
本期 WDCD 守约测试出现罕见的"三跌一涨"格局:Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分,GPT-5.5 下挫 5.8 分跌出榜首梯队,唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4
WDCD 五大场景横评揭示残酷真相:资源限制场景全员崩盘,冠军 grok-4 仅得 2.17 分;deepseek-v4-pro 偏科最严重,安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分,必须按场景匹配。
WDCD三轮衰减实测:R1确认率95%,R3诚信率仅29%,330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%,连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实,是大模型守约测
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫