测评 WDCD与Agent时代:真正的Agent不是更会执行,而是更会停下 Agent的成熟不在于自动化更强,而在于停止条件更清晰。Run #105中Q239没有一个模型停下,11/11全部生成Flask违规代码。ERNIE 4.5以R3=0.8最能停车,Grok-4仅0.2几乎从不停下,拒绝违规是基本能力。 WDCD AI Agent 停止条件 自动化安全 5小时前 47