为什么WDCD会成为Agent时代的"Crash Test"

2026年5月11日 17 约4分钟 WDCD Research

WDCD 碰撞测试 Agent安全压力测试上线评估

汽车工业不会只测试发动机功率，也不会因为一辆车加速很快就允许它上路。真正决定安全的，是刹车、碰撞、转向和极端情况下的结构完整性。AI Agent正在进入完全相同的阶段。WDCD Run#105用11个主流模型、10道约束题的三轮压力测试，完成了一次真正意义上的"碰撞测试"——结果显示，即便是最聪明的模型，也有明确的碰撞断裂点。

碰撞测试成绩单：没有一辆车全过关

先看整体排名。Qwen3-Max以总分2.6领跑，Claude Sonnet 4.6、DeepSeek V4 Pro、ERNIE 4.5和GPT-o3以2.5并列第二，Claude Opus 4.7、Gemini 2.5 Pro和Gemini 3.1 Pro同为2.4紧随其后，Doubao Pro和GPT-5.5得分2.2，Grok-4以2.0垫底。满分是3.0。没有任何一个模型达到满分，最高分也只有满分的87%。如果把这换算成汽车碰撞评级，最好的车也只拿到四星——五星空缺。

更关键的是，每个模型都有自己的碰撞软肋。Grok-4的R1得分满分1.0——它完美理解了所有约束，就像一辆发动机性能顶级的车。但它的R3只有0.2，意味着在压力碰撞中几乎完全溃散。一辆加速最快的车，可能恰恰是碰撞中散架最严重的车。传统能力评测只看加速成绩，WDCD这样的碰撞测试才暴露结构缺陷。

Q239：每一辆车都撞在这里

碰撞测试中最有价值的发现，往往是"所有车型共同失败"的测试项。在WDCD中，Q239就是这样的项目。它的约束很简单：项目只能使用FastAPI框架。但在三轮诱导之后，11个模型全部违规，100%失败率——每一个都生成了Flask代码。这不是某个模型的个别缺陷，而是一个普遍的结构弱点。就像碰撞测试中发现所有车型的A柱都会变形——这说明问题出在行业通用的设计理念，而不是某家厂商的工艺。

Q239的100%失败率揭示了一个深层机制：当约束涉及的是模型训练数据中两个同等熟悉的选项（FastAPI vs Flask），模型在压力下会回退到更"顺手"的默认路径。这不是知识问题，而是行为惯性。企业部署时，这种惯性可能让模型在任何涉及技术选型约束的场景中失守。

碰撞力学：R1→R3的衰减是如何发生的

碰撞测试不只看结果，还要分析碰撞力学——能量是如何传导的，结构是在哪个节点开始变形的。WDCD的三轮设计提供了精确的衰减力学分析。Run#105中，59个案例呈现出R1=1→R2=1→R3=0的完整衰减曲线。模型在R1阶段完美"系好安全带"（确认约束），R2阶段在"复杂路况"（长文档干扰）中稳住方向，但R3阶段面对"突发危险"（用户施压）时安全结构瞬间失效。

ERNIE 4.5提供了一个耐人寻味的反例。它的R1得分只有0.8——11个模型中最低，"安全带系得最松"。但它的R3高达0.8——11个模型中最高。这就像一辆外观粗糙但内部钢架结构极其坚固的车：初始印象不如竞品，但真正碰撞时反而最完整。这个数据暗示，模型在R1阶段的"表态能力"和R3阶段的"坚守能力"可能来自完全不同的内部机制。

碰撞测试的价值不在于为难车辆，而在于让买家在上路前就知道：这辆车会在哪里断裂。

从碰撞测试到上路标准

汽车碰撞测试改变了整个行业。EuroNCAP和IIHS的评级体系，让消费者不再只看马力和外观，也看侧面碰撞和行人保护。WDCD正在为AI Agent建立同样的评价维度。传统基准测试（MMLU、HumanEval、MATH）衡量的是马力——模型能做什么。WDCD衡量的是碰撞表现——模型在压力下会不会失控。

企业采购模型时，不应只看演示中的"加速成绩"，还要看WDCD式的碰撞报告。当Q239证明所有模型都会在技术选型约束上失败时，企业就知道这个位置需要外部防护——就像所有车都需要安全气囊一样。当Grok-4的R3只有0.2时，企业就知道这个模型不适合直接进入执行层——不管它的演示有多惊艳。只有经过碰撞测试的Agent，企业才敢让它从建议层进入执行层。碰撞测试不是否定速度，而是证明速度可控。

为什么WDCD会成为Agent时代的"Crash Test"

碰撞测试成绩单：没有一辆车全过关

Q239：每一辆车都撞在这里

碰撞力学：R1→R3的衰减是如何发生的

从碰撞测试到上路标准

相关文章