Claude Sonnet 4.6 相关AI资讯

Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位，豆包Pro以62.50分垫底，头部与尾部相差30分。满分率47.3%，R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位，GPT-o

WDCD 守约测试 Qwen3 Max AI模型守约能力

2026年6月17日 227

测评

Claude Sonnet 4.6代码执行从100暴跌至50，主榜降6.9分

今日Smoke评测中，Claude Sonnet 4.6代码执行从100.00骤降至50.00，主榜从79.44跌至72.50；材料约束则从54.30升至100.00，工程判断升至95.90。

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月16日 263

测评

Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

今日 Smoke 评测显示，前 7 名模型代码执行全部拿满 100 分，核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑，文心一言执行分仅 50 分垫底，Qwen3 Max 诚信评级 fail。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 233

测评

Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

今日 Smoke 评测显示，Claude Sonnet 4.6 以 97.53 分登顶，主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分，材料约束却把文心一言甩到最后，差距超过 40 分。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 226

测评

Claude Sonnet 4.6 SQL严格题从100分跌至0，主榜却反升9.3

Claude Sonnet 4.6在“SQL：疑似重复支付识别”一题从100分直接归零，但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口，导致自连接爆炸式匹配，暴露严格题下的逻辑断层。

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 243

测评

Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

今日Smoke轻量评测显示，Claude Sonnet 4.6以主榜99.78分（执行100，约束99.5）继续领跑，DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 356

测评

Claude Sonnet 4.6主榜91.77断层领先，GPT-o3执行50分直接垫底

今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶，代码执行满分、材料约束81.7分；GPT-o3执行仅50分垫底11名；DeepSeek V4 Pro诚信评级突降为fail，11模型中仅3个pass。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 266

测评

Claude Sonnet 4.6材料约束暴跌15分，Smoke快测主榜下滑6.8

Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5，主榜从88.53降至81.78，诚信评级由pass转为warn。单日-15分变化超出正常抽签波动，需关注是否出现真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 319

测评

Claude Sonnet 4.6材料约束暴跌22分，代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5，主榜仅微降2分。代码执行反升至100，单日10题抽签波动与真实能力变化需区分观察。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 348

测评

Claude Sonnet 4.6材料约束暴跌22.6分，代码执行却直接翻倍

Claude Sonnet 4.6今日Smoke评测主榜升至81.28分，但材料约束从81分暴跌至58.4分，降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常，但需判断是否为真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型波动

2026年5月23日 317

测评

Gemini主榜暴跌23分，Claude Sonnet 4.6以97.5分登顶Smoke快测

今日Smoke轻量评测显示，Claude Sonnet 4.6以97.5分登顶，Gemini 3.1 Pro主榜暴跌23.2分，文心一言4.5诚信评级直接降为Fail，核心执行与约束双维度出现明显分化。

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 303

测评

Claude Sonnet 4.6 主榜暴跌12.3分材料约束单日狂降27.3分

Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分，材料约束维度从96.30暴跌至69.00，单日下降27.3分。代码执行保持满分100分，诚信评级维持pass，需区分随机抽题波动与真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动

2026年5月17日 355

测评

3模型暴跌28分，Claude仍近满分

5月16日Smoke快测显示，Claude Sonnet 4.6以98.34领跑，GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌，执行断档成为最大风险。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 447

测评

Claude Sonnet 4.6 材料约束暴跌27.5分，主榜却逆势上涨1.4分？

Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分，但代码执行飙升25分，主榜微升1.4分。分析显示，这或是题目波动而非真实退化，无需过度关注，但稳定性仅31.7分暴露一致性隐患。

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 410

测评

Claude Sonnet 4.6代码执行暴跌25分：模型退化还是评测假象？

Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分，主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示，这可能是抽签波动而非真实退化，但结合近期Anthropic动态，开发者需警惕

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 425

测评

11模型换代战：第一稳住，Grok垫底

2026-W20 评测显示：Claude Sonnet 4.6 以 83.54 守住第一，豆包 Pro 仅差 0.91 分；Grok 4 仅 49.20，断层垫底。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 435

Claude Sonnet 4.6 相关资讯

Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分