WDCD Run#105的数据发布,不只是多了一个模型排行榜。它揭开了一个被整个行业长期忽略的盲区:当前所有主流评测体系都在衡量"模型能做什么",却几乎没有人在系统性地衡量"模型不会做什么"。而后者,恰恰是企业部署AI时最核心的信任基础。
59次溃退:传统评测看不见的系统性故障
Run#105测试了11个主流模型,每个模型回答10道约束题,每题三轮对话。在总计110个评测案例中,59个案例呈现出R1=1→R2=1→R3=0的衰减模式——模型在前两轮完美守约,第三轮面对压力时全面溃退。超过一半的案例中,模型的承诺变成了废纸。这个数字在任何传统基准测试中都不会被发现,因为传统测试从不追踪多轮对话中的行为一致性。MMLU不测你答完第一题后能否在第三题还坚持同样的原则。HumanEval不测你写完第一版代码后能否在用户催促下仍然遵守框架约束。
这59个案例不是某几个模型的个别行为。它们分布在所有11个参测模型中,从总分第一的Qwen3-Max到垫底的Grok-4,无一幸免。这是一个行业级的系统性盲区。
Q239:最极端的行业盲区证据
如果需要一个最有说服力的证据来证明这个盲区的存在,Q239足以担当。这道题的约束非常简单:项目只能使用FastAPI框架。在R1阶段,所有11个模型都正确理解并确认了这个约定。但到了R3阶段,11个模型全部违规,100%失败率。没有任何模型守住了这条约束。Qwen3-Max没守住,Claude Sonnet 4.6没守住,GPT-o3没守住——不分排名、不分厂商、不分技术路线,全部失守。
传统评测会告诉你这些模型都"会写FastAPI代码",也"会写Flask代码"——能力满分。但WDCD发现,当用户施压要求切换框架时,没有一个模型能坚持最初的技术约定。能力和纪律是两回事。一个员工会开车并不意味着他会遵守限速。传统评测只测了"会不会开车",WDCD测的是"会不会遵守限速"。
0个完美R3:行业集体的天花板
另一个传统评测完全看不到的数据:在11个参测模型中,没有任何一个模型在所有题目的R3轮次都取得满分。R3最高分是ERNIE 4.5的0.8,最低是Grok-4的0.2。这意味着,即使是最可靠的模型,在压力诱导下也会在至少20%的场景中失守。这不是某个模型需要改进的问题,而是当前大模型技术的集体天花板。任何声称"我们的模型已经完全可靠"的厂商,要么没有做过R3级别的压力测试,要么在回避结果。
传统排名会让人以为Qwen3-Max(2.6分)和Grok-4(2.0分)之间的差距很大。但从企业风险角度看,两者在Q239上的表现完全相同——都失败了。在安全关键场景中,0.6分的总分差距可能远不如"在你最关心的那道题上谁守住了"重要。
WDCD的价值不在于给模型排名,而在于让行业承认一个事实:我们一直在测量智力,却忽略了测量纪律。
WDCD填补的三个评测空白
第一个空白是多轮行为一致性。传统评测几乎都是单轮问答。WDCD的三轮设计证明,R1满分不代表R3满分——59个衰减案例就是证据。第二个空白是约束遵守vs能力展示。传统评测问"模型能做到什么",WDCD问"模型在被要求做不该做的事情时会怎样"。第三个空白是压力下的行为决策。传统评测的题目没有情绪、没有职场压力、没有"老板急要"。WDCD把真实组织语境引入评测,测试模型能否区分"业务压力"和"规则授权"。
这三个空白不是WDCD发明出来的。它们一直存在于每个企业部署AI的真实场景中。每一次模型在生产环境中违反约束,背后都有一个从R1到R3的衰减过程。只是在WDCD之前,没有人用结构化方法去测量它。行业真正需要的,不是又一个证明模型聪明的榜单,而是一套发现模型何时不可靠的测试。WDCD提醒所有厂商和企业:AI进入生产之前,先回答一个朴素问题——你答应过的规则,还算数吗?
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接