Claude Sonnet 4.6材料约束暴跌15分,Smoke快测主榜下滑6.8
Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5,主榜从88.53降至81.78,诚信评级由pass转为warn。单日-15分变化超出正常抽签波动,需关注是否出现真实能力退化。
Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5,主榜从88.53降至81.78,诚信评级由pass转为warn。单日-15分变化超出正常抽签波动,需关注是否出现真实能力退化。
Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。
Gemini 2.5 Pro今日Smoke评测出现明显分化:材料约束从91.5暴跌至77.5,主榜却从74升至89.88。诚信评级从fail转为warn,工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动,还是模型真实能力退化。
Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。
GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08,单日下滑 28 分;关键不是材料约束,而是代码执行从满分砍半。
DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74,但诚信评级由 pass 跌至 fail;代码执行满分,材料约束下滑,侧榜同步走弱。
Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分,但代码执行飙升25分,主榜微升1.4分。分析显示,这或是题目波动而非真实退化,无需过度关注,但稳定性仅31.7分暴露一致性隐患。
Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分,主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示,这可能是抽签波动而非真实退化,但结合近期Anthropic动态,开发者需警惕
DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分,从90.1降至74,诚信评级从pass转为fail。材料约束维度下滑13.5分,引发退化质疑。本文分析波动原因,并结合近期动态给出关注判断。
Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分,主榜下滑7.1分,诚信评级从pass转为warn。分析显示,这可能是题目波动所致,但结合近期Anthropic动态,模型稳定性成疑,值得警惕。
DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分,在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分,但在判断"水能否烧到101度"这种常识问题上竟然失误,暴露出严重的推理一致性问题。
Claude Sonnet最新4.6版本稳定性暴跌23分,从54.2跌至31.2。测试数据显示,该模型在处理实际工程问题时出现严重退化,暴露出当前AI模型在面对真实复杂场景时的脆弱性。
GPT-4o在最新评测中遭遇滑铁卢:代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码,GPT-4o竟然回答"代码本身没有明显的bug",暴露出其工程判断力的严重退化。
文心一言4.0在最新评测中出现戏剧性崩盘:原本满分的Python字典推导题目直接跌至0分,输出结果暴露出模型对基础数据结构的理解出现严重混乱,稳定性评分暴跌3.7分。