AI Agent 相关资讯

WDCD与Agent时代：真正的Agent不是更会执行，而是更会停下

Agent的成熟不在于自动化更强，而在于停止条件更清晰。Run #105中Q239没有一个模型停下，11/11全部生成Flask违规代码。ERNIE 4.5以R3=0.8最能停车，Grok-4仅0.2几乎从不停下，拒绝违规是基本能力。

当模型只输出文字时错误停在屏幕上，连接工具后错误直接进入系统。Run #105中Q239的11/11模型全部生成Flask违规代码，若作为Agent将直接破坏架构。Qwen3-Max总分第一但R3仅0.7，没有模型具备可靠的刹车能力。