代码执行相关AI资讯 | 赢政天下 AI

Grok 4 98.34 分登顶，Claude Opus 主榜暴跌 31.3 分

今日 Smoke 轻量评测显示，Grok 4 以 98.34 分领跑，代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分，执行分直接腰斩至 38.1，诚信评级从 pass 转为 warn。Qwen3 Max 紧随其

Grok 4 Claude Opus 代码执行模型波动

2026年5月21日 271

测评

Claude Opus 4.7主榜暴跌22.6分，代码执行从100直接腰斩

Claude Opus 4.7今日Smoke评测主榜暴跌22.6分，代码执行从100分直接跌至50分，材料约束反升11分，需区分随机波动与真实能力退化。

Claude Opus 4.7 代码执行 Smoke评测模型波动

2026年5月19日 268

测评

Grok 4 97.44 分登顶，GPT-o3 主榜暴跌 28 分

今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑，Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分，代码执行从 100 直接腰斩至 50，Claude 两款模型同步崩盘，暴露执行能力严重退化。

Grok 4 代码执行 GPT-o3 Claude 系列

2026年5月19日 239

测评

11个AI同解连续登录SQL题：8个满分3个直接崩盘

在同一道“找出用户最长连续登录天数”的SQL题上，11个主流模型中8个拿下100分，3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败，暴露了当前顶级模型在日期分组逻辑上的显著不稳定。

代码执行材料约束 SQL连续登录差距分析

2026年5月18日 332

测评

11 模型同答 SQL 留存题：9 家 0 分，DeepSeek 与 Grok 仅 66.7

在同一道「SQL 月度留存 Cohort」代码执行题上，11 个模型中 9 个直接得 0 分，仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断，要么日期偏移计算出错，暴露了当前大模

代码执行材料约束 SQL留存测试模型对比

2026年5月18日 297

测评

11个AI同答SQL题：3个直接0分，Claude与GPT为何崩盘

11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60，正确使用DATE_SUB或兼容INTERVAL语法；Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分，因日期区间

代码执行材料约束 SQL日期函数模型方言兼容性

2026年5月18日 299

测评

本周11模型大换血：新秀Qwen3 Max68.5分入场老将75分集体退场

本周赢政指数v6主榜出现剧烈更替，DeepSeek V3等6个老模型退出，Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜，最高得分68.5分；豆包Pro代码执行89.8分仍居前列，GPT-o3材料约束单周暴涨18.1分

Qwen3 Max 代码执行模型迭代主榜洗牌

2026年5月18日 245

测评

Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩

Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00，代码执行单维度暴跌25分至75，材料约束小涨6分。主因是代码执行出现明显失误，需区分题目抽签波动与真实能力退化。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 245

测评

Qwen3 Max主榜暴跌10.9分，代码执行单日腰斩25分

Qwen3 Max今日Smoke评测主榜从88.75跌至77.84，代码执行从100直接跌到75，诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化，值得重点追踪。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 201

测评

GPT-5.5主榜暴跌28分：真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08，单日下滑 28 分；关键不是材料约束，而是代码执行从满分砍半。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 378

测评

3模型暴跌28分，Claude仍近满分

5月16日Smoke快测显示，Claude Sonnet 4.6以98.34领跑，GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌，执行断档成为最大风险。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 433

测评

Claude Sonnet 4.6代码执行暴跌25分：模型退化还是评测假象？

Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分，主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示，这可能是抽签波动而非真实退化，但结合近期Anthropic动态，开发者需警惕

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 413

测评

Claude Sonnet 4.6 逆袭登顶！8大AI模型代码执行暴跌25分，行业地震真相

今日Smoke评测中，Claude Sonnet 4.6 以84.68分逆袭登顶，但8大模型代码执行暴跌25分，主榜平均下滑超10分。Claude家族强势，Gemini和DeepSeek大幅滑坡，揭示AI更新风险与稳定性隐忧。GroK 4诚

Claude Sonnet 代码执行 AI评测模型暴跌

2026年5月14日 435

测评

AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分

2026年5月12日Smoke评测显示，GPT-5.5和GPT-o3并列主榜第一85.69分，但文心一言主榜暴涨24.7分却诚信降为Fail；Gemini系列暴跌超14分，多模型约束维度崩盘，揭示AI稳定性隐忧。

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 376

测评

11大AI模型SQL连续登录题大考：8满分3崩盘，代码执行差距惊人

在同一道SQL题“连续登录天数”中，11个AI模型表现分化：豆包Pro、文心一言等8款满分100分，DeepSeek V4 Pro、GPT-o3等3款0分。分析揭示，成功者巧用ROW_NUMBER()分组，失败者语法或逻辑崩盘，凸显代码执行

代码执行 SQL AI模型对比连续登录天数

2026年5月11日 401

测评

GPT-o3一道题从100跌0，主榜反而涨了

GPT-o3 在“矩阵旋转”严格题从 100 分跌到 0，但主榜却从 73.62 升至 75.69。原始 Log 指向一个低级执行失误。

GPT-o3 代码执行严格题 Debug事故

2026年5月11日 373

测评

11模型换代战：第一稳住，Grok垫底

2026-W20 评测显示：Claude Sonnet 4.6 以 83.54 守住第一，豆包 Pro 仅差 0.91 分；Grok 4 仅 49.20，断层垫底。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 429

测评

GPT-4o代码执行暴跌23.7分：版本更新引发性能雪崩

GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8，降幅达23.7分。多项核心维度出现断崖式下跌，特别是性价比和稳定性分别下降54.1和52.2分，显示模型在版本更新后出现严重性能退化。

GPT-4o 代码执行性能下降模型评测

2026年3月31日 713

测评

11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

赢政指数第13周评测显示，GPT-4o材料约束维度大跌10.3分，成为本周最大输家；文心一言4.0代码执行提升6.8分，是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首，GPT-4o跌至垫底。

GPT-4o 文心一言材料约束代码执行

2026年3月24日 684

代码执行 相关资讯