Smoke 评测:10 模型代码执行全满分,材料约束差距拉大排名
今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。
今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。
本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。
资源限制场景成为最大难点,最高仅2.5分、垫底1分;业务规则区分度最高,gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分,gpt-o3业务规则满分却资源限制1.
WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露
Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。
今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。
今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢
11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出
11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。
11个模型面对同一道“疑似重复支付”SQL题,仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分,暴露了工程级SQL生成
11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成
v6评测中GPT-o3主榜上涨7分至82.82,但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分,材料约束提升14分,稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断,暴露算法实现一致性缺陷。
Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。
本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。
今日Smoke评测中,Claude Opus 4.7与GPT-5.5并列主榜第一(92.53分),代码执行均满分,材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底,材料约束仍是区分顶级模型的核心变量。
本周 Smoke 快测显示,GPT-5.5 从 86.95 滑落至 63.89,趋势 -23.1;Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的