为什么WDCD会成为Agent时代的"Crash Test"

汽车工业不会只测试发动机功率,也不会因为一辆车加速很快就允许它上路。真正决定安全的,是刹车、碰撞、转向和极端情况下的结构完整性。AI Agent正在进入完全相同的阶段。WDCD Run#105用11个主流模型、10道约束题的三轮压力测试,完成了一次真正意义上的"碰撞测试"——结果显示,即便是最聪明的模型,也有明确的碰撞断裂点。

碰撞测试成绩单:没有一辆车全过关

先看整体排名。Qwen3-Max以总分2.6领跑,Claude Sonnet 4.6、DeepSeek V4 Pro、ERNIE 4.5和GPT-o3以2.5并列第二,Claude Opus 4.7、Gemini 2.5 Pro和Gemini 3.1 Pro同为2.4紧随其后,Doubao Pro和GPT-5.5得分2.2,Grok-4以2.0垫底。满分是3.0。没有任何一个模型达到满分,最高分也只有满分的87%。如果把这换算成汽车碰撞评级,最好的车也只拿到四星——五星空缺。

更关键的是,每个模型都有自己的碰撞软肋。Grok-4的R1得分满分1.0——它完美理解了所有约束,就像一辆发动机性能顶级的车。但它的R3只有0.2,意味着在压力碰撞中几乎完全溃散。一辆加速最快的车,可能恰恰是碰撞中散架最严重的车。传统能力评测只看加速成绩,WDCD这样的碰撞测试才暴露结构缺陷。

Q239:每一辆车都撞在这里

碰撞测试中最有价值的发现,往往是"所有车型共同失败"的测试项。在WDCD中,Q239就是这样的项目。它的约束很简单:项目只能使用FastAPI框架。但在三轮诱导之后,11个模型全部违规,100%失败率——每一个都生成了Flask代码。这不是某个模型的个别缺陷,而是一个普遍的结构弱点。就像碰撞测试中发现所有车型的A柱都会变形——这说明问题出在行业通用的设计理念,而不是某家厂商的工艺。

Q239的100%失败率揭示了一个深层机制:当约束涉及的是模型训练数据中两个同等熟悉的选项(FastAPI vs Flask),模型在压力下会回退到更"顺手"的默认路径。这不是知识问题,而是行为惯性。企业部署时,这种惯性可能让模型在任何涉及技术选型约束的场景中失守。

碰撞力学:R1→R3的衰减是如何发生的

碰撞测试不只看结果,还要分析碰撞力学——能量是如何传导的,结构是在哪个节点开始变形的。WDCD的三轮设计提供了精确的衰减力学分析。Run#105中,59个案例呈现出R1=1→R2=1→R3=0的完整衰减曲线。模型在R1阶段完美"系好安全带"(确认约束),R2阶段在"复杂路况"(长文档干扰)中稳住方向,但R3阶段面对"突发危险"(用户施压)时安全结构瞬间失效。

ERNIE 4.5提供了一个耐人寻味的反例。它的R1得分只有0.8——11个模型中最低,"安全带系得最松"。但它的R3高达0.8——11个模型中最高。这就像一辆外观粗糙但内部钢架结构极其坚固的车:初始印象不如竞品,但真正碰撞时反而最完整。这个数据暗示,模型在R1阶段的"表态能力"和R3阶段的"坚守能力"可能来自完全不同的内部机制。

碰撞测试的价值不在于为难车辆,而在于让买家在上路前就知道:这辆车会在哪里断裂。

从碰撞测试到上路标准

汽车碰撞测试改变了整个行业。EuroNCAP和IIHS的评级体系,让消费者不再只看马力和外观,也看侧面碰撞和行人保护。WDCD正在为AI Agent建立同样的评价维度。传统基准测试(MMLU、HumanEval、MATH)衡量的是马力——模型能做什么。WDCD衡量的是碰撞表现——模型在压力下会不会失控。

企业采购模型时,不应只看演示中的"加速成绩",还要看WDCD式的碰撞报告。当Q239证明所有模型都会在技术选型约束上失败时,企业就知道这个位置需要外部防护——就像所有车都需要安全气囊一样。当Grok-4的R3只有0.2时,企业就知道这个模型不适合直接进入执行层——不管它的演示有多惊艳。只有经过碰撞测试的Agent,企业才敢让它从建议层进入执行层。碰撞测试不是否定速度,而是证明速度可控。