测评 WDCD视角:模型越有用,越需要刹车 当模型只输出文字时错误停在屏幕上,连接工具后错误直接进入系统。Run #105中Q239的11/11模型全部生成Flask违规代码,若作为Agent将直接破坏架构。Qwen3-Max总分第一但R3仅0.7,没有模型具备可靠的刹车能力。 WDCD AI Agent 工具调用 能力与约束 2026年5月10日 370
测评 GPT-4o崩了:35分暴跌背后的严格模式陷阱 GPT-4o本周可用性暴跌35分,在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动",它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。 GPT-4o 可用性测试 严格模式 工具调用 2026年3月22日 582