Smoke评测相关AI资讯 | 赢政天下 AI

测评

Claude Sonnet 4.6材料约束暴跌22.6分，代码执行却直接翻倍

Claude Sonnet 4.6今日Smoke评测主榜升至81.28分，但材料约束从81分暴跌至58.4分，降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常，但需判断是否为真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型波动

2026年5月23日 324

测评

Grok 4材料约束暴跌21.3分，代码执行却暴涨50，主榜反升17.9

Grok 4今日Smoke评测材料约束从80.3骤降至59，主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常，但-21.3分降幅超出历史均值，需观察是否为真实能力退化。

Grok 4 材料约束 Smoke评测模型波动

2026年5月23日 369

测评

Claude Opus 4.7材料约束暴跌17.6分，代码执行却逆势涨11.9

Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7，主榜微跌1.4分。代码执行却从38.1跃升至50.0，诚信评级从warn转为pass。单日10题测试波动正常，但17.6分跌幅仍需警惕模型真实退化风险。

Claude Opus 4.7 材料约束 Smoke评测 Anthropic更新

2026年5月22日 312

测评

Gemini 2.5 Pro材料约束暴跌14分，主榜却逆涨15.9，抽签还是真退化？

Gemini 2.5 Pro今日Smoke评测出现明显分化：材料约束从91.5暴跌至77.5，主榜却从74升至89.88。诚信评级从fail转为warn，工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动，还是模型真实能力退化。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 298

测评

Gemini 2.5 Pro主榜暴跌22.6分，工程判断直接腰斩

Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74，工程判断从66.7跌至30，任务表达从50跌至10，诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化，值得重点关注。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 297

测评

文心一言4.5诚信评级Fail，代码执行暴涨42.5分却侧榜崩盘

文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail，主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分，但工程判断和任务表达分别暴跌36.7分和40分，显示模型在一致性与指令遵循上出现明显退化。

文心一言4.5 诚信评级 Smoke评测侧榜波动

2026年5月20日 297

测评

Claude Opus 4.7主榜暴跌22.6分，代码执行从100直接腰斩

Claude Opus 4.7今日Smoke评测主榜暴跌22.6分，代码执行从100分直接跌至50分，材料约束反升11分，需区分随机波动与真实能力退化。

Claude Opus 4.7 代码执行 Smoke评测模型波动

2026年5月19日 280

测评

豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动

豆包Pro今日Smoke评测材料约束从95分跌至79.8分，暴跌15.2分，主榜下降6.8分至90.91。代码执行保持满分，工程判断与任务表达却有提升。单日10题快测下，这一变化更可能是题目抽签波动还是模型真实退化，值得拆解。

豆包 Pro 材料约束 Smoke评测模型波动

2026年5月19日 299

测评

Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩

Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00，代码执行单维度暴跌25分至75，材料约束小涨6分。主因是代码执行出现明显失误，需区分题目抽签波动与真实能力退化。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 254

测评

GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke

今日Smoke轻量评测中，豆包Pro以97.75分登顶，GPT-5.5主榜暴跌23.5分至60.58，执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑，材料约束成为今日最大分水岭。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 262

测评

Claude Sonnet 4.6 主榜暴跌12.3分材料约束单日狂降27.3分

Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分，材料约束维度从96.30暴跌至69.00，单日下降27.3分。代码执行保持满分100分，诚信评级维持pass，需区分随机抽题波动与真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动

2026年5月17日 357

测评

7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05，Claude Sonnet与豆包Pro同步逆袭；GPT-o3下滑7.8、Grok波动79.2居首，多模型诚信评级出现fail或warn信号，暴露一致性隐患。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 374

测评

GPT-5.5主榜暴跌28分：真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08，单日下滑 28 分；关键不是材料约束，而是代码执行从满分砍半。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 390

测评

Gemini 2.5 Pro跌10分：能力没崩诚信翻车

Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分，但代码执行仍为 100，材料约束反涨 9.8，真正警报来自诚信评级由 pass 转 fail。

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级

2026年5月16日 373

测评

3模型暴跌28分，Claude仍近满分

5月16日Smoke快测显示，Claude Sonnet 4.6以98.34领跑，GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌，执行断档成为最大风险。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 454

测评

DeepSeek涨5分却Fail：10题烟测警报

DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74，但诚信评级由 pass 跌至 fail；代码执行满分，材料约束下滑，侧榜同步走弱。

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化

2026年5月15日 422

测评

Claude Sonnet 4.6 材料约束暴跌27.5分，主榜却逆势上涨1.4分？

Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分，但代码执行飙升25分，主榜微升1.4分。分析显示，这或是题目波动而非真实退化，无需过度关注，但稳定性仅31.7分暴露一致性隐患。

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 413

测评

2个零执行暴雷，Claude守住88.75分

今日Smoke快测出现强烈分化：9个模型代码执行满分，但文心一言4.5、Grok 4执行归零；Claude Opus 4.7以88.75居首，材料约束成为真正分水岭。

Claude Opus 4.7 材料约束 Smoke评测诚信评级

2026年5月15日 391

测评

Claude Opus 4.7 Smoke评测主榜暴跌9.6分：退化信号还是抽签闹剧？

Claude Opus 4.7在今日Smoke评测中主榜暴跌9.6分，代码执行维度从100分跌至75分，引发退化疑虑。但材料约束升至85.8分，工程判断（侧榜）大跌20分。分析显示，这或是抽签波动，而非真实退步，诚信评级仍为pass，无需过

Claude Opus 4.7 赢政指数 Smoke评测模型波动

2026年5月14日 450

测评

Claude Sonnet 4.6代码执行暴跌25分：模型退化还是评测假象？

Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分，主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示，这可能是抽签波动而非真实退化，但结合近期Anthropic动态，开发者需警惕

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 436

Smoke评测 相关资讯