Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。
今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。
Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5,主榜从88.53降至81.78,诚信评级由pass转为warn。单日-15分变化超出正常抽签波动,需关注是否出现真实能力退化。
Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。
Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。
今日Smoke轻量评测显示,Claude Sonnet 4.6以97.5分登顶,Gemini 3.1 Pro主榜暴跌23.2分,文心一言4.5诚信评级直接降为Fail,核心执行与约束双维度出现明显分化。
Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分,材料约束维度从96.30暴跌至69.00,单日下降27.3分。代码执行保持满分100分,诚信评级维持pass,需区分随机抽题波动与真实能力退化。
5月16日Smoke快测显示,Claude Sonnet 4.6以98.34领跑,GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌,执行断档成为最大风险。
Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分,但代码执行飙升25分,主榜微升1.4分。分析显示,这或是题目波动而非真实退化,无需过度关注,但稳定性仅31.7分暴露一致性隐患。
Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分,主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示,这可能是抽签波动而非真实退化,但结合近期Anthropic动态,开发者需警惕
2026-W20 评测显示:Claude Sonnet 4.6 以 83.54 守住第一,豆包 Pro 仅差 0.91 分;Grok 4 仅 49.20,断层垫底。