工具调用相关资讯

Qwen3.7-Max发布：代理时代旗舰模型支持35小时无干预内核优化

Qwen3.7-Max作为全新旗舰模型面向代理时代推出，支持端到端编码、多文件重构及35小时无干预内核优化任务，工具调用超1000次。API已上线供开发者测试。本文从winzheng.com Research Lab视角分析其技术原理、影响

Qwen模型 AI代理工具调用

2026年5月23日 304

WDCD视角：模型越有用，越需要刹车

当模型只输出文字时错误停在屏幕上，连接工具后错误直接进入系统。Run #105中Q239的11/11模型全部生成Flask违规代码，若作为Agent将直接破坏架构。Qwen3-Max总分第一但R3仅0.7，没有模型具备可靠的刹车能力。

WDCD AI Agent 工具调用能力与约束

2026年5月10日 370

GPT-4o崩了：35分暴跌背后的严格模式陷阱

GPT-4o本周可用性暴跌35分，在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动"，它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。

GPT-4o 可用性测试严格模式工具调用

2026年3月22日 582