WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.
本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。
资源限制场景成为最大难点,最高仅2.5分、垫底1分;业务规则区分度最高,gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分,gpt-o3业务规则满分却资源限制1.
WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露
Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
苹果在WWDC 2026开幕式上正式发布由Gemini驱动的新一代Siri,并推出多模型Apple Intelligence框架,强调隐私优先的端侧AI处理能力,引发全球科技界广泛讨论。
OpenAI近日保密向美国提交IPO文件,同时其关联眼部扫描公司传出裁员消息。AI巨头上市潮引发市场广泛关注与争议。本文从行业动态出发,客观分析OpenAI此举对科技资本市场的潜在影响,以及Sam Altman领导下的公司战略调整。
NVIDIA CEO黄仁勋近日与Hyundai高层会晤,双方宣布扩大在移动出行、制造及机器人领域的AI合作,重点推动具身智能技术从实验室走向商业应用。此举被视为全球机器人产业的重要里程碑,有望重塑汽车与智能制造格局。
北京Moonshot AI计划融资20亿美元,估值达300亿美元,这是其半年内第三轮融资,反映中国AI独角兽持续获得资本热捧。公司旗下Kimi聊天机器人用户增长迅速,未来将重点投入大模型研发与商业化拓展。
Anthropic正式推出Claude Fable 5模型,采用Mythos架构,在SWE-Bench等基准测试中超越GPT系列,定价亲民引发开发者广泛讨论,X平台互动量破百万,标志AI竞争进入新阶段。
就业数据超预期引发美联储加息担忧,Broadcom财报展望不及预期拖累半导体板块,AI与芯片股单日市值蒸发1.3万亿美元。市场对“泡沫破裂”与“获利了结”存在明显分歧,Nvidia等龙头股跌幅显著,投资者需关注后续通胀与政策信号。
OpenAI首席执行官Sam Altman近日公布公司未来战略计划,强调人工智能技术需“造福所有人”。结合近期多起诉讼与模型迭代进展,此举引发业界对AGI发展路线的广泛讨论。市场人士猜测可能涉及政府资本入股,OpenAI的商业模式或将面临重
Nvidia近日与韩国NAVER、SK Telecom等企业签署AI工厂协议,同时Hyundai深化机器人合作,SK Hynix获得内存大单。Nvidia CEO Jensen Huang表示AI股票“非常便宜”,基础设施扩张成为全球焦点。
苹果WWDC 2026于6月开幕,Siri全面采用Gemini模型重构,Photos新增AI编辑工具,Shortcuts支持智能工作流,CEO蒂姆·库克发表最后一场主题演讲。AI功能深度整合iOS生态,引发开发者与全球用户热议,标志苹果在生
今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢
11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出
11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。
11个模型面对同一道“疑似重复支付”SQL题,仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分,暴露了工程级SQL生成