模型退化相关AI资讯 | 赢政天下 AI

测评

Claude Sonnet 4.6材料约束暴跌15分，Smoke快测主榜下滑6.8

Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5，主榜从88.53降至81.78，诚信评级由pass转为warn。单日-15分变化超出正常抽签波动，需关注是否出现真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 295

测评

Claude Sonnet 4.6材料约束暴跌22分，代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5，主榜仅微降2分。代码执行反升至100，单日10题抽签波动与真实能力变化需区分观察。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 333

测评

Gemini 2.5 Pro材料约束暴跌14分，主榜却逆涨15.9，抽签还是真退化？

Gemini 2.5 Pro今日Smoke评测出现明显分化：材料约束从91.5暴跌至77.5，主榜却从74升至89.88。诚信评级从fail转为warn，工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动，还是模型真实能力退化。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 269

测评

Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩

Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00，代码执行单维度暴跌25分至75，材料约束小涨6分。主因是代码执行出现明显失误，需区分题目抽签波动与真实能力退化。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 245

测评

GPT-5.5主榜暴跌28分：真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08，单日下滑 28 分；关键不是材料约束，而是代码执行从满分砍半。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 378

测评

DeepSeek涨5分却Fail：10题烟测警报

DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74，但诚信评级由 pass 跌至 fail；代码执行满分，材料约束下滑，侧榜同步走弱。

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化

2026年5月15日 399

测评

Claude Sonnet 4.6 材料约束暴跌27.5分，主榜却逆势上涨1.4分？

Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分，但代码执行飙升25分，主榜微升1.4分。分析显示，这或是题目波动而非真实退化，无需过度关注，但稳定性仅31.7分暴露一致性隐患。

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 397

测评

Claude Sonnet 4.6代码执行暴跌25分：模型退化还是评测假象？

Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分，主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示，这可能是抽签波动而非真实退化，但结合近期Anthropic动态，开发者需警惕

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 413

测评

DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分，从90.1降至74，诚信评级从pass转为fail。材料约束维度下滑13.5分，引发退化质疑。本文分析波动原因，并结合近期动态给出关注判断。

DeepSeek V4 Pro 材料约束 Smoke评测模型退化

2026年5月12日 415

测评

Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分，主榜下滑7.1分，诚信评级从pass转为warn。分析显示，这可能是题目波动所致，但结合近期Anthropic动态，模型稳定性成疑，值得警惕。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 292

测评

DeepSeek R1稳定性暴跌22分：简单判断题全军覆没的真相

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分，在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分，但在判断"水能否烧到101度"这种常识问题上竟然失误，暴露出严重的推理一致性问题。

DeepSeek R1 稳定性测试 AI推理失败模型退化

2026年3月22日 517

测评

Claude 4.6版本崩了：23分暴跌背后的算法黑洞

Claude Sonnet最新4.6版本稳定性暴跌23分，从54.2跌至31.2。测试数据显示，该模型在处理实际工程问题时出现严重退化，暴露出当前AI模型在面对真实复杂场景时的脆弱性。

Claude 稳定性测试模型退化算法缺陷

2026年3月22日 698

测评

GPT-4o崩了：工程师最信任的AI判断力跌至0分

GPT-4o在最新评测中遭遇滑铁卢：代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码，GPT-4o竟然回答"代码本身没有明显的bug"，暴露出其工程判断力的严重退化。

GPT-4o 编程能力代码审查工程实践

2026年3月21日 406

测评

文心4.0一行代码暴露致命缺陷：当AI连字典都不认识

文心一言4.0在最新评测中出现戏剧性崩盘：原本满分的Python字典推导题目直接跌至0分，输出结果暴露出模型对基础数据结构的理解出现严重混乱，稳定性评分暴跌3.7分。

文心一言4.0 编程能力代码生成模型退化

2026年3月21日 641

模型退化 相关资讯