二叉树序列化实测:11 模型 7 满分 4 直接归零
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出
11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。
11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成
今日Smoke评测中,Claude Opus 4.7与GPT-5.5并列主榜第一(92.53分),代码执行均满分,材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底,材料约束仍是区分顶级模型的核心变量。
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。
今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分,代码执行维度从昨日普遍高位跌至20或0分,仅Gemini 3.1 Pro以40.48分勉强领跑,暴露当前模型在复杂代码任务上的极端脆弱性。
Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5,主榜从88.53降至81.78,诚信评级由pass转为warn。单日-15分变化超出正常抽签波动,需关注是否出现真实能力退化。
Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50,主榜从88.53降至81.78。代码执行保持满分100分,工程判断与任务表达零变化。单日10题抽签下,此类15分级波动是否反映模型真实能力退化,值得持
今日Smoke轻量评测显示,11款主流模型主榜全线下滑,材料约束平均暴跌15分以上,多款从warn转为fail。代码执行保持满分,暴露模型在事实约束上的系统性退化。
Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。
Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53,材料约束单日暴跌18.3分至74.50,诚信评级从pass转为warn,工程判断小幅回升。
今日 Smoke 评测中,Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03,执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶,执行 100 分、约束 89.5 分(warn)领先,GPT-o3 紧
Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。
Grok 4今日Smoke评测材料约束从80.3骤降至59,主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常,但-21.3分降幅超出历史均值,需观察是否为真实能力退化。
今日Smoke评测显示,11款主流模型材料约束维度普遍暴跌18-29分,导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一,但约束仅59分且标warn;豆包Pro主榜暴跌37.2分,执行从高位直接腰斩至50分。核心问题集中在材料约