代码执行相关AI资讯 | 赢政天下 AI

测评

Claude Sonnet 4.6 SQL严格题从100分跌至0，主榜却反升9.3

Claude Sonnet 4.6在“SQL：疑似重复支付识别”一题从100分直接归零，但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口，导致自连接爆炸式匹配，暴露严格题下的逻辑断层。

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 229

测评

11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

本周 7 款新模型首次上榜即拿下 72.4-80.9 分，Grok 4 以 89.90 分登顶，DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出，旧榜单结构被彻底打破。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 241

测评

9模型并列主榜77.5，代码执行满分材料约束却只剩50

今日Smoke轻量评测显示，9款主流模型主榜并列77.5分，代码执行全部拿到100分，材料约束却集体停留在50分，仅文心一言和Claude Sonnet 4.6掉队，暴露当前模型在严格材料遵循上的集体短板。

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 322

测评

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 352

测评

三大模型并列 Smoke 榜首执行满分但约束警示

今日 Smoke 轻量评测中，Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一，得分 87.76，代码执行均 100 分，但材料约束仅 72.8 并触发 warn， grounding 仍

Claude Opus 材料约束 Smoke 评测代码执行

2026年6月3日 247

测评

GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

今日Smoke轻量评测显示，GPT-5.5以86.95分位居第一，代码执行100分、材料约束71分。所有前七名模型代码执行均满分，排名完全由材料约束决定；Claude Opus 4.7等后四名执行仅50分，整体差距明显。

GPT-5.5 材料约束 Smoke评测代码执行

2026年6月2日 269

测评

Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

今日Smoke轻量评测显示，Claude Sonnet 4.6以主榜99.78分（执行100，约束99.5）继续领跑，DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 342

测评

文心一言4.5代码执行从100暴跌至50，主榜单日掉11分

文心一言4.5今日Smoke评测主榜从74分跌至62.96分，核心原因是代码执行维度从100分直接腰斩至50分，材料约束小涨4.5分。单日10题抽样下，这种波动究竟是随机题目方差，还是模型真实能力退化，值得拆解。

文心一言4.5 代码执行 Smoke评测百度AI

2026年5月30日 277

测评

文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

今日Smoke轻量评测中，文心一言4.5执行分直接腰斩至50，主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分，Claude Opus 4.7以99.42分继续领跑，材料约束成为拉开差距的关键。

文心一言代码执行 Smoke评测 GPT-o3

2026年5月30日 252

测评

DeepSeek V4 Pro Smoke测试主榜暴涨48.7，工程判断却暴跌28.4

DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99，代码执行从20分直接拉满至100分，但工程判断从38.4暴跌至10分，诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化，值得关注。

DeepSeek V4 Pro 代码执行 Smoke评测模型一致性

2026年5月29日 291

测评

豆包 Pro 代码执行暴跌80分主榜单日掉41.2

豆包 Pro 主榜从81.33暴跌至40.12，代码执行单维度从100直接归零至20，材料约束小涨6.2分。单日抽签波动还是真实能力退化，需要重点关注。

豆包 Pro 代码执行 Smoke评测模型波动

2026年5月28日 371

测评

Gemini 3.1 Pro代码执行暴跌80分，主榜单日掉33.5

Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分，代码执行维度直接从100分崩到20分，材料约束小涨6分，诚信评级从fail转为pass。

Gemini 3.1 Pro 代码执行 Smoke评测单日波动

2026年5月28日 285

测评

Smoke评测全员腰斩：11模型主榜平均暴跌42分，代码执行维度集体失守

今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分，代码执行维度从昨日普遍高位跌至20或0分，仅Gemini 3.1 Pro以40.48分勉强领跑，暴露当前模型在复杂代码任务上的极端脆弱性。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 336

测评

文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分，核心原因是代码执行维度从95直接腰斩至50，材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化，值得持续追踪。

文心一言4.5 代码执行 Smoke评测百度大模型

2026年5月25日 265

测评

DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

今日Smoke评测显示，DeepSeek V4 Pro以97.08分（执行100、约束93.5）登顶，GPT-o3单日主榜暴涨31.4分，而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50，诚信评级从warn转为pass。

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行

2026年5月25日 225

测评

GPT-o3代码执行暴跌42.5分，主榜单日崩18分

GPT-o3今日Smoke评测主榜从76.05跌至58.08，代码执行从90.00直接腰斩至47.50，工程判断也从50跌到10。单日抽题波动虽属正常，但这一量级的断崖式下跌已超出随机范围，值得重点追踪。

GPT-o3 代码执行 Smoke评测模型波动

2026年5月24日 393

测评

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示，GPT-o3主榜暴跌18分至58.08，执行分直接腰斩；豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分，快速挤入前五。GPT-5.5以90.3继续领跑，文心一言诚信评级降至warn。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 306

测评

Gemini 3.1 Pro主榜暴跌8.5分，代码执行狂降9.5究竟是抽签还是退化

Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01，代码执行单日暴跌9.5分，材料约束下降7.3分。工程判断同步下滑，任务表达却意外上涨20分，稳定性仅31.7分暴露明显波动。

Gemini 3.1 Pro 代码执行 Smoke快测模型波动

2026年5月22日 323

测评

Smoke轻测：豆包Pro执行100分独秀，9模型主榜暴跌30分以上

今日Smoke轻量评测显示，豆包Pro以主榜91.23分大幅领先，代码执行拿下满分100，其余10模型执行分普遍停留在50分或0分，Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分，核心原因指向测试集难度升级与模型一致性波动。

豆包 Pro 代码执行主榜暴跌评测异常

2026年5月22日 264

测评

豆包Pro主榜暴跌18.4分，代码执行一日暴降30.8，真实退化还是抽签运气？

豆包Pro今日Smoke评测主榜从96.06暴跌至77.64，代码执行单项暴降30.8分至66.7，材料约束微降，诚信评级从pass转为warn。小样本快测波动正常，但连续异常值得追踪。

豆包 Pro 代码执行模型评测性能波动

2026年5月21日 257

代码执行 相关资讯