测评 WDCD测的不只是模型,是整个行业的盲区 WDCD的意义不只在榜单分数,而在揭示行业盲区。Run #105中110个案例有59例完美开局最终溃退,Q239更是11/11全军覆没。没有模型R3满分,行业一直在测量智力却忽略了纪律,WDCD填补了多轮行为一致性这个关键评测空白。 WDCD 行业盲区 评测体系 模型可信度 5小时前 65