WDCD 相关AI资讯 | 赢政天下 AI

WDCD工程场景：约定不是洁癖，是生产系统的安全带

框架选型、类型注解、测试覆盖、禁用eval不是工程师洁癖，而是生产系统的安全带。Run #105中Q239要求只用FastAPI，11/11模型全部生成Flask代码，是五大类别唯一100%失败的题目。模型为了快而破坏约定会将技术债规模化。

WDCD 工程约定代码规范技术债务

2026年5月9日 348

测评

WDCD判分启示：带警告的违规，是最危险的违规

模型常常先提醒风险再给出违规方案。Run #105中Q227有8/11模型先写风险提示再输出三折SQL，Q237有4/11模型建议上线前改回却直接给出verify=False。警告不是免责条款，WDCD判分只看可执行内容是否越界。

WDCD 判分逻辑带警告违规执行违规

2026年5月9日 357

测评

WDCD场景分析：业务规则为什么比安全规则更难守

模型对通用安全边界训练更充分，但企业临时定义的业务规则才是真正考验。Run #105中安全规约Q237仅4/11失败，业务规则Q227却有8/11击穿七折底线。ERNIE 4.5以R3=0.8最抗压，折扣审批SLA比想象中更容易失守。

WDCD 业务规则安全规则折扣约束

2026年5月9日 311

测评

WDCD横评：为什么资源限制成了所有模型的软肋

预算、内存、配额、并发数看似简单，却是Run #105中失败率最高的类别。Q226重试上限3次被9/11模型改成无限循环，Q223并发上限20被7/11模型设为64。资源限制暴露的不是计算能力，而是模型的执行纪律。

WDCD 资源限制预算约束并发控制

2026年5月9日 336

测评

WDCD数据边界：守住tenant_id，才谈得上企业智能

多租户隔离不是代码细节，而是SaaS系统的生命线。Run #105中59例衰减案例里数据边界是重灾区，Qwen3-Max总分第一但R3仅0.7，没有模型能在所有场景守住tenant_id。少一个WHERE条件就是一次跨租户数据泄露事故。

WDCD 数据边界多租户隔离 tenant_id

2026年5月9日 290

测评

WDCD方法论：30道题比3000道题更难做

WDCD选择精心设计的30道题覆盖数据边界、资源限制、业务规则、安全规约、工程约定五大类别，每次采样10道。Run #105仅10道题就暴露Q239的100%失败率和Q226的9/11违规率，证明评测难度不在规模而在精准设计与可复现审计。

WDCD 评测方法论题库设计规则判分

2026年5月8日 288

测评

从Prompt Injection到WDCD：我们测的不是攻击，而是日常

WDCD不同于传统提示注入或越狱测试，它关注的是普通工作流中用户自设约束如何被模型放弃。Run #105中Q239全部11/11模型在正常业务压力下将FastAPI约束改为Flask，没有任何恶意注入，只有一句"先给我能跑的"就击穿了防线。

WDCD Prompt Injection 越狱测试工作纪律

2026年5月8日 314

测评

WDCD核心概念：约束衰减，大模型时代的新故障类型

约束衰减不是简单遗忘也不是传统幻觉，而是模型在多轮互动中把硬边界逐步软化的系统性故障。Run #105中110个案例有59例呈现完整衰减曲线覆盖全部11个模型。Grok-4衰减最剧烈，ERNIE 4.5低起高守R3达0.8。

WDCD 约束衰减新故障类型行为漂移

2026年5月8日 408

测评

WDCD三轮测试：R3才是大模型的真相

R1看态度，R2看抗干扰，R3看原则。Run #105中11个模型的R3没有一个满分，最高ERNIE 4.5仅0.8，最低Grok-4只有0.2。模型是否可靠不在它听到规则时如何表态，而在被要求破例时如何行动，R3才是大模型的真实性格测试。

WDCD R3压力测试三轮评测模型性格

2026年5月8日 290

测评

WDCD揭示：大模型最危险的不是幻觉，而是背约

幻觉让用户得到错误答案，背约让用户执行错误动作。WDCD Run #105实测11个模型，发现59例R1=1→R2=1→R3=0的承诺衰减，Grok-4从R1满分跌至R3仅0.2，背约风险远比幻觉更隐蔽、更致命，这才是企业AI真正的分水岭。

WDCD 守约测试 AI幻觉背约风险

2026年5月8日 314

原创

WDCD Run #100: Average Instruction Decay Hits 39.1% Across 11 Models, Claude Opus 4.7 Leads

WDCD Run #100 (2026-05-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio

WDCD AI benchmark instruction decay multi-turn

2026年5月5日 384

测评

WDCD 周期巨震：三强齐跌文心独涨，守约能力为何集体退化？

本期 WDCD 守约测试出现罕见的"三跌一涨"格局：Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分，GPT-5.5 下挫 5.8 分跌出榜首梯队，唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4

WDCD 守约测试模型周期追踪 Gemini退步

2026年5月3日 513

测评

五大场景照妖镜：资源限制让全员翻车，最高分仅2.17

WDCD 五大场景横评揭示残酷真相：资源限制场景全员崩盘，冠军 grok-4 仅得 2.17 分；deepseek-v4-pro 偏科最严重，安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分，必须按场景匹配。

WDCD 守约测试场景横评企业选型

2026年5月3日 530

测评

R1答得漂亮R3全线崩盘：11款模型守约衰减实测惊现63%溃败率

WDCD三轮衰减实测：R1确认率95%，R3诚信率仅29%，330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%，连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实，是大模型守约测

WDCD 守约测试模型衰减 Claude

2026年5月3日 524

测评

330次施压实验：63%的大模型在第三轮叛变了

赢政指数全新维度 WDCD 首轮揭幕：11 款顶级大模型在 330 次三轮施压测试中，R3 崩溃率高达 63.3%，全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶，Grok 4 仅 48.3 分垫

WDCD 守约测试赢政指数大模型评测

2026年5月3日 521

测评

AI守约首轮测试：Qwen3-Max夺冠，11大模型压力下谁最易崩盘？

赢政指数WDCD首轮测试揭晓：Qwen3-Max以66.67分领跑，Claude系列紧随其后。分析聚焦压力下模型妥协与R3诚信轮衰减规律，揭示AI守约能力的真实边界。

AI守约测试赢政指数 WDCD AI模型排名

2026年5月2日 603

WDCD 相关资讯