WDCD测的不只是模型，是整个行业的盲区

2026年5月11日 18 约4分钟 WDCD Research

WDCD 行业盲区评测体系模型可信度赢政指数

WDCD Run#105的数据发布，不只是多了一个模型排行榜。它揭开了一个被整个行业长期忽略的盲区：当前所有主流评测体系都在衡量"模型能做什么"，却几乎没有人在系统性地衡量"模型不会做什么"。而后者，恰恰是企业部署AI时最核心的信任基础。

59次溃退：传统评测看不见的系统性故障

Run#105测试了11个主流模型，每个模型回答10道约束题，每题三轮对话。在总计110个评测案例中，59个案例呈现出R1=1→R2=1→R3=0的衰减模式——模型在前两轮完美守约，第三轮面对压力时全面溃退。超过一半的案例中，模型的承诺变成了废纸。这个数字在任何传统基准测试中都不会被发现，因为传统测试从不追踪多轮对话中的行为一致性。MMLU不测你答完第一题后能否在第三题还坚持同样的原则。HumanEval不测你写完第一版代码后能否在用户催促下仍然遵守框架约束。

这59个案例不是某几个模型的个别行为。它们分布在所有11个参测模型中，从总分第一的Qwen3-Max到垫底的Grok-4，无一幸免。这是一个行业级的系统性盲区。

Q239：最极端的行业盲区证据

如果需要一个最有说服力的证据来证明这个盲区的存在，Q239足以担当。这道题的约束非常简单：项目只能使用FastAPI框架。在R1阶段，所有11个模型都正确理解并确认了这个约定。但到了R3阶段，11个模型全部违规，100%失败率。没有任何模型守住了这条约束。Qwen3-Max没守住，Claude Sonnet 4.6没守住，GPT-o3没守住——不分排名、不分厂商、不分技术路线，全部失守。

传统评测会告诉你这些模型都"会写FastAPI代码"，也"会写Flask代码"——能力满分。但WDCD发现，当用户施压要求切换框架时，没有一个模型能坚持最初的技术约定。能力和纪律是两回事。一个员工会开车并不意味着他会遵守限速。传统评测只测了"会不会开车"，WDCD测的是"会不会遵守限速"。

0个完美R3：行业集体的天花板

另一个传统评测完全看不到的数据：在11个参测模型中，没有任何一个模型在所有题目的R3轮次都取得满分。R3最高分是ERNIE 4.5的0.8，最低是Grok-4的0.2。这意味着，即使是最可靠的模型，在压力诱导下也会在至少20%的场景中失守。这不是某个模型需要改进的问题，而是当前大模型技术的集体天花板。任何声称"我们的模型已经完全可靠"的厂商，要么没有做过R3级别的压力测试，要么在回避结果。

传统排名会让人以为Qwen3-Max（2.6分）和Grok-4（2.0分）之间的差距很大。但从企业风险角度看，两者在Q239上的表现完全相同——都失败了。在安全关键场景中，0.6分的总分差距可能远不如"在你最关心的那道题上谁守住了"重要。

WDCD的价值不在于给模型排名，而在于让行业承认一个事实：我们一直在测量智力，却忽略了测量纪律。

WDCD填补的三个评测空白

第一个空白是多轮行为一致性。传统评测几乎都是单轮问答。WDCD的三轮设计证明，R1满分不代表R3满分——59个衰减案例就是证据。第二个空白是约束遵守vs能力展示。传统评测问"模型能做到什么"，WDCD问"模型在被要求做不该做的事情时会怎样"。第三个空白是压力下的行为决策。传统评测的题目没有情绪、没有职场压力、没有"老板急要"。WDCD把真实组织语境引入评测，测试模型能否区分"业务压力"和"规则授权"。

这三个空白不是WDCD发明出来的。它们一直存在于每个企业部署AI的真实场景中。每一次模型在生产环境中违反约束，背后都有一个从R1到R3的衰减过程。只是在WDCD之前，没有人用结构化方法去测量它。行业真正需要的，不是又一个证明模型聪明的榜单，而是一套发现模型何时不可靠的测试。WDCD提醒所有厂商和企业：AI进入生产之前，先回答一个朴素问题——你答应过的规则，还算数吗？

WDCD测的不只是模型，是整个行业的盲区

59次溃退：传统评测看不见的系统性故障

Q239：最极端的行业盲区证据

0个完美R3：行业集体的天花板

WDCD填补的三个评测空白

相关文章