材料约束相关AI资讯 | 赢政天下 AI

测评

Claude Opus 4.7材料约束暴跌17.6分，代码执行却逆势涨11.9

Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7，主榜微跌1.4分。代码执行却从38.1跃升至50.0，诚信评级从warn转为pass。单日10题测试波动正常，但17.6分跌幅仍需警惕模型真实退化风险。

Claude Opus 4.7 材料约束 Smoke评测 Anthropic更新

2026年5月22日 299

测评

Gemini 2.5 Pro材料约束暴跌14分，主榜却逆涨15.9，抽签还是真退化？

Gemini 2.5 Pro今日Smoke评测出现明显分化：材料约束从91.5暴跌至77.5，主榜却从74升至89.88。诚信评级从fail转为warn，工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动，还是模型真实能力退化。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 269

测评

Gemini主榜暴跌23分，Claude Sonnet 4.6以97.5分登顶Smoke快测

今日Smoke轻量评测显示，Claude Sonnet 4.6以97.5分登顶，Gemini 3.1 Pro主榜暴跌23.2分，文心一言4.5诚信评级直接降为Fail，核心执行与约束双维度出现明显分化。

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 288

测评

豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动

豆包Pro今日Smoke评测材料约束从95分跌至79.8分，暴跌15.2分，主榜下降6.8分至90.91。代码执行保持满分，工程判断与任务表达却有提升。单日10题快测下，这一变化更可能是题目抽签波动还是模型真实退化，值得拆解。

豆包 Pro 材料约束 Smoke评测模型波动

2026年5月19日 262

测评

11个AI同解连续登录SQL题：8个满分3个直接崩盘

在同一道“找出用户最长连续登录天数”的SQL题上，11个主流模型中8个拿下100分，3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败，暴露了当前顶级模型在日期分组逻辑上的显著不稳定。

代码执行材料约束 SQL连续登录差距分析

2026年5月18日 332

测评

11 模型同答 SQL 留存题：9 家 0 分，DeepSeek 与 Grok 仅 66.7

在同一道「SQL 月度留存 Cohort」代码执行题上，11 个模型中 9 个直接得 0 分，仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断，要么日期偏移计算出错，暴露了当前大模

代码执行材料约束 SQL留存测试模型对比

2026年5月18日 297

测评

11个AI同答SQL题：3个直接0分，Claude与GPT为何崩盘

11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60，正确使用DATE_SUB或兼容INTERVAL语法；Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分，因日期区间

代码执行材料约束 SQL日期函数模型方言兼容性

2026年5月18日 299

测评

GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke

今日Smoke轻量评测中，豆包Pro以97.75分登顶，GPT-5.5主榜暴跌23.5分至60.58，执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑，材料约束成为今日最大分水岭。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 243

测评

Claude Sonnet 4.6 主榜暴跌12.3分材料约束单日狂降27.3分

Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分，材料约束维度从96.30暴跌至69.00，单日下降27.3分。代码执行保持满分100分，诚信评级维持pass，需区分随机抽题波动与真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动

2026年5月17日 347

测评

Claude Opus 4.7 Smoke评测主榜暴跌9分，材料约束单日腰斩20分

Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75，材料约束从95分跌至75分，单日损失20分。代码执行保持满分，工程判断小涨，其他维度持平。需区分随机题目波动与真实能力退化。

Claude Opus 4.7 材料约束 Smoke快测性能波动

2026年5月17日 337

测评

三模型88.75分并列第一 Claude双雄暴跌12分 Smoke榜单剧烈洗牌

今日Smoke评测显示Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max三模型以88.75分并列第一，但Claude Sonnet 4.6主榜暴跌12.3分、材料约束骤降27.3分，Grok 4与DeepSe

Claude Opus 4.7 材料约束 Smoke轻量评测模型迭代

2026年5月17日 327

测评

Gemini 2.5 Pro跌10分：能力没崩诚信翻车

Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分，但代码执行仍为 100，材料约束反涨 9.8，真正警报来自诚信评级由 pass 转 fail。

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级

2026年5月16日 346

测评

3模型暴跌28分，Claude仍近满分

5月16日Smoke快测显示，Claude Sonnet 4.6以98.34领跑，GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌，执行断档成为最大风险。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 433

测评

DeepSeek涨5分却Fail：10题烟测警报

DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74，但诚信评级由 pass 跌至 fail；代码执行满分，材料约束下滑，侧榜同步走弱。

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化

2026年5月15日 399

测评

Claude Sonnet 4.6 材料约束暴跌27.5分，主榜却逆势上涨1.4分？

Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分，但代码执行飙升25分，主榜微升1.4分。分析显示，这或是题目波动而非真实退化，无需过度关注，但稳定性仅31.7分暴露一致性隐患。

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 398

测评

2个零执行暴雷，Claude守住88.75分

今日Smoke快测出现强烈分化：9个模型代码执行满分，但文心一言4.5、Grok 4执行归零；Claude Opus 4.7以88.75居首，材料约束成为真正分水岭。

Claude Opus 4.7 材料约束 Smoke评测诚信评级

2026年5月15日 368

测评

DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分，从90.1降至74，诚信评级从pass转为fail。材料约束维度下滑13.5分，引发退化质疑。本文分析波动原因，并结合近期动态给出关注判断。

DeepSeek V4 Pro 材料约束 Smoke评测模型退化

2026年5月12日 416

测评

Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分，主榜下滑7.1分，诚信评级从pass转为warn。分析显示，这可能是题目波动所致，但结合近期Anthropic动态，模型稳定性成疑，值得警惕。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 292

测评

AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分

2026年5月12日Smoke评测显示，GPT-5.5和GPT-o3并列主榜第一85.69分，但文心一言主榜暴涨24.7分却诚信降为Fail；Gemini系列暴跌超14分，多模型约束维度崩盘，揭示AI稳定性隐忧。

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 376

测评

11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

赢政指数第13周评测显示，GPT-4o材料约束维度大跌10.3分，成为本周最大输家；文心一言4.0代码执行提升6.8分，是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首，GPT-4o跌至垫底。

GPT-4o 文心一言材料约束代码执行

2026年3月24日 684

材料约束 相关资讯