代码执行相关AI资讯 | 赢政天下 AI

Gemini 2.5 Pro主榜暴跌28分，代码执行从100直接腰斩

Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分，暴跌28分，主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分，其他维度持平或微升，诚信评级维持pass。

Qwen3 Max主榜暴跌19.2分，代码执行单日掉31.2分

赢政指数2026年6月Smoke评测显示，Qwen3 Max主榜从100分跌至80.82分，代码执行维度从100分降至68.80分，降幅31.2分。材料约束仅降4.5分，诚信评级维持pass。单日10题快测下，此类波动需区分抽签因素与真实能

Qwen3 Max 代码执行 Smoke评测模型波动

1天前 202

测评

Qwen3 Max主榜暴跌19.2分四模型执行约束双满分

2026-06-21 Smoke评测中，DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4四模型主榜、执行、约束三项均为100分。Qwen3 Max主榜暴跌19.2分至80.82，执行维度从昨日高位跌至

Qwen3 Max 代码执行 Smoke轻量评测材料约束

1天前 94

测评

文心一言4.5 Smoke主榜暴跌22.2分代码执行直接腰斩至50分

文心一言4.5今日Smoke评测主榜从93.25分跌至71.02分，暴跌22.2分。代码执行维度从94.10分直接跌至50.00分，材料约束小涨至96.70分。单日10题快测中，代码执行表现出现显著异常。

文心一言4.5 代码执行 Smoke测试单日波动

2天前 140

测评

GPT-5.5 Smoke评测主榜暴跌20.5分，代码执行从100直降50

GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分，暴跌20.5分。代码执行从100.00分腰斩至50.00分，材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因，仍需持续观察。

GPT-5.5 代码执行 Smoke快测单日波动

2天前 153

测评

GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分

2026-06-20 Smoke轻量评测显示，GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50，主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一，执行与约束双满分。

GPT-5.5 代码执行 Smoke评测执行约束失衡

2天前 134

测评

文心一言4.5主榜暴跌10.4分，任务表达维度从90分腰斩至46.3

文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分，代码执行从66.70分降至50.00分，任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分，诚信评级从warn转为pass。

文心一言4.5 主榜 Smoke评测维度波动

5天前 153

测评

Qwen3 Max材料约束暴跌28.9分，今日Smoke 11模型主榜洗牌

2026-06-17 Smoke评测显示，Qwen3 Max材料约束暴跌28.9分至71.1，主榜仅73.25分；Claude Opus 4.7以执行与约束双100稳居第一，Gemini 2.5 Pro与GPT-5.5主榜同为98.83分，

Qwen3 Max 材料约束 Smoke轻量评测代码执行

5天前 135

测评

豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中，豆包Pro主榜从82.36分跌至72.50分，下滑9.9分。代码执行从100.00分直接跌至50.00分，材料约束则从60.80分升至100.00分，单日波动引发对题目抽签与真实能力稳定性的讨论。

豆包 Pro 代码执行 Smoke评测模型波动

6天前 208

测评

Claude Sonnet 4.6代码执行从100暴跌至50，主榜降6.9分

今日Smoke评测中，Claude Sonnet 4.6代码执行从100.00骤降至50.00，主榜从79.44跌至72.50；材料约束则从54.30升至100.00，工程判断升至95.90。

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

6天前 218

测评

Claude Opus 4.7 100分称王，9模型代码执行暴跌50分

2026-06-16 Smoke评测中，Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二，执行66.7分。9个模型代码执行出现-50分暴跌，主榜普遍下滑，Gemini系列执行分跌

Claude Opus 4.7 代码执行 Smoke评测主榜排名

6天前 193

测评

Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3

Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分，代码执行从100.00分直接降至55.00分，材料约束则从77.30分升至89.50分。单日10题快测下，这一45分跌幅超出常规抽签波动范围，值得持续观察

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月14日 259

测评

Grok 4代码执行暴跌19.1分，主榜下滑7.7，抽签还是退化

今日Smoke评测中Grok 4代码执行从100.00跌至80.90，主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00，材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 239

测评

11模型代码执行集体暴跌，GPT-5.5 95.24分领跑Smoke轻量榜

2026-06-14 Smoke评测显示，GPT-5.5主榜95.24分（执行96、约束94.3）位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分，主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 274

测评

Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

今日 Smoke 评测显示，前 7 名模型代码执行全部拿满 100 分，核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑，文心一言执行分仅 50 分垫底，Qwen3 Max 诚信评级 fail。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 214

测评

二叉树序列化实测：11 模型 7 满分 4 直接归零

11 模型同题实测二叉树序列化与反序列化，豆包、Qwen3、Claude 等 7 款拿下 100 分，Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出

代码执行材料约束二叉树序列化工程实现

2026年6月8日 296

测评

11模型括号匹配同题测试：7个满分4个零分

11个模型调试同一段括号匹配代码，7个给出正确修复并返回100分，4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题，以及是否处理非括号字符。

代码执行材料约束括号匹配调试对比

2026年6月8日 301

测评

11个AI同解SQL重复支付题：仅4个满分，7个直接0分

11个模型面对同一道“疑似重复支付”SQL题，仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分，暴露了工程级SQL生成

代码执行豆包 Pro SQL自连接重复支付检测

2026年6月8日 288

测评

11 个模型同一道闭包题全给 [2,2,2]，赢政指数却集体 0 分

11 个主流模型在同一道 Python 闭包题目上，10 个直接输出 [2, 2, 2]，仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分，暴露了“格式严格性”对最终得分的决定性影响，也显示当前模型在循环变量捕获问题上已形成

代码执行材料约束 Python 闭包模型一致性

2026年6月8日 295

测评

GPT-o3蓄水池采样题100分骤降至0，代码执行真相藏细节

v6评测中GPT-o3主榜上涨7分至82.82，但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分，材料约束提升14分，稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断，暴露算法实现一致性缺陷。

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 189

代码执行 相关资讯