材料约束相关AI资讯 | 赢政天下 AI

二叉树序列化实测：11 模型 7 满分 4 直接归零

11 模型同题实测二叉树序列化与反序列化，豆包、Qwen3、Claude 等 7 款拿下 100 分，Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出

代码执行材料约束二叉树序列化工程实现

2026年6月8日 296

测评

11模型括号匹配同题测试：7个满分4个零分

11个模型调试同一段括号匹配代码，7个给出正确修复并返回100分，4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题，以及是否处理非括号字符。

代码执行材料约束括号匹配调试对比

2026年6月8日 301

测评

11 个模型同一道闭包题全给 [2,2,2]，赢政指数却集体 0 分

11 个主流模型在同一道 Python 闭包题目上，10 个直接输出 [2, 2, 2]，仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分，暴露了“格式严格性”对最终得分的决定性影响，也显示当前模型在循环变量捕获问题上已形成

代码执行材料约束 Python 闭包模型一致性

2026年6月8日 295

测评

Claude Opus 4.7与GPT-5.5并列Smoke榜首材料约束成为最大分水岭

今日Smoke评测中，Claude Opus 4.7与GPT-5.5并列主榜第一（92.53分），代码执行均满分，材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底，材料约束仍是区分顶级模型的核心变量。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 269

测评

9模型并列主榜77.5，代码执行满分材料约束却只剩50

今日Smoke轻量评测显示，9款主流模型主榜并列77.5分，代码执行全部拿到100分，材料约束却集体停留在50分，仅文心一言和Claude Sonnet 4.6掉队，暴露当前模型在严格材料遵循上的集体短板。

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 322

测评

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 352

测评

三大模型并列 Smoke 榜首执行满分但约束警示

今日 Smoke 轻量评测中，Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一，得分 87.76，代码执行均 100 分，但材料约束仅 72.8 并触发 warn， grounding 仍

Claude Opus 材料约束 Smoke 评测代码执行

2026年6月3日 247

测评

GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

今日Smoke轻量评测显示，GPT-5.5以86.95分位居第一，代码执行100分、材料约束71分。所有前七名模型代码执行均满分，排名完全由材料约束决定；Claude Opus 4.7等后四名执行仅50分，整体差距明显。

GPT-5.5 材料约束 Smoke评测代码执行

2026年6月2日 269

测评

Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

今日Smoke轻量评测显示，Claude Sonnet 4.6以主榜99.78分（执行100，约束99.5）继续领跑，DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 342

测评

Claude Sonnet 4.6主榜91.77断层领先，GPT-o3执行50分直接垫底

今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶，代码执行满分、材料约束81.7分；GPT-o3执行仅50分垫底11名；DeepSeek V4 Pro诚信评级突降为fail，11模型中仅3个pass。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 257

测评

Smoke评测全员腰斩：11模型主榜平均暴跌42分，代码执行维度集体失守

今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分，代码执行维度从昨日普遍高位跌至20或0分，仅Gemini 3.1 Pro以40.48分勉强领跑，暴露当前模型在复杂代码任务上的极端脆弱性。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 335

测评

Claude Sonnet 4.6材料约束暴跌15分，Smoke快测主榜下滑6.8

Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5，主榜从88.53降至81.78，诚信评级由pass转为warn。单日-15分变化超出正常抽签波动，需关注是否出现真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 299

测评

Claude Opus 4.7材料约束单日跌15分，Smoke测试波动还是真实退化

Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50，主榜从88.53降至81.78。代码执行保持满分100分，工程判断与任务表达零变化。单日10题抽签下，此类15分级波动是否反映模型真实能力退化，值得持

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年5月27日 283

测评

11模型材料约束集体暴跌15分，Smoke评测揭示核心短板

今日Smoke轻量评测显示，11款主流模型主榜全线下滑，材料约束平均暴跌15分以上，多款从warn转为fail。代码执行保持满分，暴露模型在事实约束上的系统性退化。

材料约束 Claude Opus 4.7 模型评测能力退化

2026年5月27日 269

测评

Claude Sonnet 4.6材料约束暴跌22分，代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5，主榜仅微降2分。代码执行反升至100，单日10题抽签波动与真实能力变化需区分观察。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 333

测评

Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53，材料约束单日暴跌18.3分至74.50，诚信评级从pass转为warn，工程判断小幅回升。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 314

测评

Gemini 2.5 Pro 主榜暴跌35.6分，DeepSeek V4 Pro 登顶 Smoke 评测

今日 Smoke 评测中，Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03，执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶，执行 100 分、约束 89.5 分（warn）领先，GPT-o3 紧

DeepSeek V4 Pro 材料约束 Gemini 2.5 Pro Smoke 轻量评测

2026年5月26日 360

测评

Claude Sonnet 4.6材料约束暴跌22.6分，代码执行却直接翻倍

Claude Sonnet 4.6今日Smoke评测主榜升至81.28分，但材料约束从81分暴跌至58.4分，降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常，但需判断是否为真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型波动

2026年5月23日 302

测评

Grok 4材料约束暴跌21.3分，代码执行却暴涨50，主榜反升17.9

Grok 4今日Smoke评测材料约束从80.3骤降至59，主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常，但-21.3分降幅超出历史均值，需观察是否为真实能力退化。

Grok 4 材料约束 Smoke评测模型波动

2026年5月23日 334

测评

材料约束集体暴跌20分，Grok 4 81.55分险胜Claude登顶

今日Smoke评测显示，11款主流模型材料约束维度普遍暴跌18-29分，导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一，但约束仅59分且标warn；豆包Pro主榜暴跌37.2分，执行从高位直接腰斩至50分。核心问题集中在材料约

材料约束 Grok 4 Smoke轻量评测模型波动

2026年5月23日 316

材料约束 相关资讯