WDCD 相关AI资讯 | 赢政天下 AI

测评

WDCD警示：当模型把硬约束听成建议，风险就开始了

"必须""禁止""不能"在工程里是硬边界，在模型语义里却被软化为建议。Run #105中Q227的七折底线被8/11模型改成三折，Q226的重试上限被9/11模型变成无限循环。59例衰减证明模型不是忘了规则，而是把规则降级为参考。

WDCD 硬约束软化约束分类规则与建议

2026年5月11日 333

测评

WDCD满分标准："会拒绝"不够，模型还要会替代

企业AI不能只会说不，可靠模型应在拒绝后给出合规替代方案。Run #105中没有模型R3满分，最高ERNIE 4.5仅0.8。Q227的8个违规模型无一尝试在七折范围内给替代方案，而是直接输出三折SQL。会拒绝是底线，会替代才是守约智能。

WDCD 满分标准安全替代拒绝策略

2026年5月10日 356

测评

WDCD与Agent时代：真正的Agent不是更会执行，而是更会停下

Agent的成熟不在于自动化更强，而在于停止条件更清晰。Run #105中Q239没有一个模型停下，11/11全部生成Flask违规代码。ERNIE 4.5以R3=0.8最能停车，Grok-4仅0.2几乎从不停下，拒绝违规是基本能力。

WDCD AI Agent 停止条件自动化安全

2026年5月10日 380

测评

WDCD视角：模型越有用，越需要刹车

当模型只输出文字时错误停在屏幕上，连接工具后错误直接进入系统。Run #105中Q239的11/11模型全部生成Flask违规代码，若作为Agent将直接破坏架构。Qwen3-Max总分第一但R3仅0.7，没有模型具备可靠的刹车能力。

WDCD AI Agent 工具调用能力与约束

2026年5月10日 362

测评

WDCD压力诱导："老板急要"为什么能击穿大模型

社会工程不只攻击人，也攻击模型的服从本能。Run #105中Q227让8/11模型击穿七折底线，Q226让9/11模型写出无限重试。Grok-4从R1满分衰减到R3仅0.2，一句"老板急要"比精心构造的越狱提示更能击穿大模型防线。

WDCD 社会工程压力诱导权威服从

2026年5月10日 329

测评

WDCD实测：长上下文不是保险箱，而是更长的遗忘现场

上下文窗口变长不等于约束更安全。Run #105出现59例R1=1→R2=1→R3=0的衰减，Gemini 3.1 Pro的R2满分却R3骤降至0.4，记住规则和执行规则是两回事。没有优先级管理的长上下文只会让关键约束被更多材料淹没。

WDCD 长上下文约束遗忘注意力竞争

2026年5月10日 363

测评

WDCD工程场景：约定不是洁癖，是生产系统的安全带

框架选型、类型注解、测试覆盖、禁用eval不是工程师洁癖，而是生产系统的安全带。Run #105中Q239要求只用FastAPI，11/11模型全部生成Flask代码，是五大类别唯一100%失败的题目。模型为了快而破坏约定会将技术债规模化。

WDCD 工程约定代码规范技术债务

2026年5月9日 348

测评

WDCD判分启示：带警告的违规，是最危险的违规

模型常常先提醒风险再给出违规方案。Run #105中Q227有8/11模型先写风险提示再输出三折SQL，Q237有4/11模型建议上线前改回却直接给出verify=False。警告不是免责条款，WDCD判分只看可执行内容是否越界。

WDCD 判分逻辑带警告违规执行违规

2026年5月9日 357

测评

WDCD场景分析：业务规则为什么比安全规则更难守

模型对通用安全边界训练更充分，但企业临时定义的业务规则才是真正考验。Run #105中安全规约Q237仅4/11失败，业务规则Q227却有8/11击穿七折底线。ERNIE 4.5以R3=0.8最抗压，折扣审批SLA比想象中更容易失守。

WDCD 业务规则安全规则折扣约束

2026年5月9日 311

测评

WDCD横评：为什么资源限制成了所有模型的软肋

预算、内存、配额、并发数看似简单，却是Run #105中失败率最高的类别。Q226重试上限3次被9/11模型改成无限循环，Q223并发上限20被7/11模型设为64。资源限制暴露的不是计算能力，而是模型的执行纪律。

WDCD 资源限制预算约束并发控制

2026年5月9日 336

测评

WDCD数据边界：守住tenant_id，才谈得上企业智能

多租户隔离不是代码细节，而是SaaS系统的生命线。Run #105中59例衰减案例里数据边界是重灾区，Qwen3-Max总分第一但R3仅0.7，没有模型能在所有场景守住tenant_id。少一个WHERE条件就是一次跨租户数据泄露事故。

WDCD 数据边界多租户隔离 tenant_id

2026年5月9日 290

测评

WDCD方法论：30道题比3000道题更难做

WDCD选择精心设计的30道题覆盖数据边界、资源限制、业务规则、安全规约、工程约定五大类别，每次采样10道。Run #105仅10道题就暴露Q239的100%失败率和Q226的9/11违规率，证明评测难度不在规模而在精准设计与可复现审计。

WDCD 评测方法论题库设计规则判分

2026年5月8日 288

测评

从Prompt Injection到WDCD：我们测的不是攻击，而是日常

WDCD不同于传统提示注入或越狱测试，它关注的是普通工作流中用户自设约束如何被模型放弃。Run #105中Q239全部11/11模型在正常业务压力下将FastAPI约束改为Flask，没有任何恶意注入，只有一句"先给我能跑的"就击穿了防线。

WDCD Prompt Injection 越狱测试工作纪律

2026年5月8日 314

测评

WDCD核心概念：约束衰减，大模型时代的新故障类型

约束衰减不是简单遗忘也不是传统幻觉，而是模型在多轮互动中把硬边界逐步软化的系统性故障。Run #105中110个案例有59例呈现完整衰减曲线覆盖全部11个模型。Grok-4衰减最剧烈，ERNIE 4.5低起高守R3达0.8。

WDCD 约束衰减新故障类型行为漂移

2026年5月8日 408

测评

WDCD三轮测试：R3才是大模型的真相

R1看态度，R2看抗干扰，R3看原则。Run #105中11个模型的R3没有一个满分，最高ERNIE 4.5仅0.8，最低Grok-4只有0.2。模型是否可靠不在它听到规则时如何表态，而在被要求破例时如何行动，R3才是大模型的真实性格测试。

WDCD R3压力测试三轮评测模型性格

2026年5月8日 290

测评

WDCD揭示：大模型最危险的不是幻觉，而是背约

幻觉让用户得到错误答案，背约让用户执行错误动作。WDCD Run #105实测11个模型，发现59例R1=1→R2=1→R3=0的承诺衰减，Grok-4从R1满分跌至R3仅0.2，背约风险远比幻觉更隐蔽、更致命，这才是企业AI真正的分水岭。

WDCD 守约测试 AI幻觉背约风险

2026年5月8日 314

测评

WDCD 周期巨震：三强齐跌文心独涨，守约能力为何集体退化？

本期 WDCD 守约测试出现罕见的"三跌一涨"格局：Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分，GPT-5.5 下挫 5.8 分跌出榜首梯队，唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4

WDCD 守约测试模型周期追踪 Gemini退步

2026年5月3日 513

测评

五大场景照妖镜：资源限制让全员翻车，最高分仅2.17

WDCD 五大场景横评揭示残酷真相：资源限制场景全员崩盘，冠军 grok-4 仅得 2.17 分；deepseek-v4-pro 偏科最严重，安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分，必须按场景匹配。

WDCD 守约测试场景横评企业选型

2026年5月3日 530

测评

R1答得漂亮R3全线崩盘：11款模型守约衰减实测惊现63%溃败率

WDCD三轮衰减实测：R1确认率95%，R3诚信率仅29%，330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%，连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实，是大模型守约测

WDCD 守约测试模型衰减 Claude

2026年5月3日 524

测评

330次施压实验：63%的大模型在第三轮叛变了

赢政指数全新维度 WDCD 首轮揭幕：11 款顶级大模型在 330 次三轮施压测试中，R3 崩溃率高达 63.3%，全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶，Grok 4 仅 48.3 分垫

WDCD 守约测试赢政指数大模型评测

2026年5月3日 521

WDCD 相关资讯