诚信评级相关AI资讯 | 赢政天下 AI

测评

Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail

Qwen3 Max今日Smoke评测主榜从85.96分跌至74.00分，代码执行持平100.00分，材料约束从68.80分升至95.70分，但工程判断和任务表达双双大跌，诚信评级由pass转为fail。

Qwen3 Max 主榜 Smoke评测材料约束

4天前 224

测评

Claude Sonnet 4.6主榜91.77断层领先，GPT-o3执行50分直接垫底

今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶，代码执行满分、材料约束81.7分；GPT-o3执行仅50分垫底11名；DeepSeek V4 Pro诚信评级突降为fail，11模型中仅3个pass。

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度

2026年5月29日 271

测评

Claude Opus 4.7主榜暴跌8.2分，材料约束单日崩18.3

Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53，材料约束单日暴跌18.3分至74.50，诚信评级从pass转为warn，工程判断小幅回升。

Claude Opus 4.7 材料约束 Smoke评测主榜波动

2026年5月26日 357

测评

DeepSeek V4 Pro 诚信评级 Fail 转 Pass，主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass，主榜从 74.00 跃升至 97.08，材料约束单项上涨 23.5 分。单日 10 题快测下，这种幅度变化究竟是抽签运气还是真实能力回暖，需

DeepSeek V4 Pro 诚信评级 Smoke测试单日波动

2026年5月25日 286

测评

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3，涨幅29.7分领跑；GPT-o3 则从94.51 断崖下跌至58.08，降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题，DeepSeek V4

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 402

测评

Gemini 2.5 Pro主榜暴跌22.6分，工程判断直接腰斩

Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74，工程判断从66.7跌至30，任务表达从50跌至10，诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化，值得重点关注。

Gemini 2.5 Pro 工程判断 Smoke评测模型波动

2026年5月20日 299

测评

文心一言4.5诚信评级Fail，代码执行暴涨42.5分却侧榜崩盘

文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail，主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分，但工程判断和任务表达分别暴跌36.7分和40分，显示模型在一致性与指令遵循上出现明显退化。

文心一言4.5 诚信评级 Smoke评测侧榜波动

2026年5月20日 300

测评

Gemini主榜暴跌23分，Claude Sonnet 4.6以97.5分登顶Smoke快测

今日Smoke轻量评测显示，Claude Sonnet 4.6以97.5分登顶，Gemini 3.1 Pro主榜暴跌23.2分，文心一言4.5诚信评级直接降为Fail，核心执行与约束双维度出现明显分化。

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级

2026年5月20日 311

测评

11个AI同答甩锅题，仅8款给出正确排序：工程判断力差异拉满

同一道“项目延期甩锅”题，11款主流模型中8款输出A>B>D>C并获60分，Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前，仅得0分。核心发现显示，工程判断与诚信排序能力在当前模型间已出现明显断层。

工程判断诚信评级甩锅测试项目延期

2026年5月18日 322

测评

7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05，Claude Sonnet与豆包Pro同步逆袭；GPT-o3下滑7.8、Grok波动79.2居首，多模型诚信评级出现fail或warn信号，暴露一致性隐患。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 376

测评

Gemini 2.5 Pro跌10分：能力没崩诚信翻车

Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分，但代码执行仍为 100，材料约束反涨 9.8，真正警报来自诚信评级由 pass 转 fail。

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级

2026年5月16日 375

测评

DeepSeek涨5分却Fail：10题烟测警报

DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74，但诚信评级由 pass 跌至 fail；代码执行满分，材料约束下滑，侧榜同步走弱。

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化

2026年5月15日 426

测评

2个零执行暴雷，Claude守住88.75分

今日Smoke快测出现强烈分化：9个模型代码执行满分，但文心一言4.5、Grok 4执行归零；Claude Opus 4.7以88.75居首，材料约束成为真正分水岭。

Claude Opus 4.7 材料约束 Smoke评测诚信评级

2026年5月15日 392

测评

Gemini 2.5 Pro Smoke评测主榜飙升13.5分，诚信翻盘却工程判断崩跌28分

Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54，诚信评级从fail转为pass，但工程判断（侧榜）暴跌28.4分至30.00。分析显示，这或是抽签波动而非真实退化，但需警惕潜在不稳定性。核心维度材料约束

Gemini 2.5 Pro 赢政指数 Smoke评测诚信评级

2026年5月13日 414

测评

Gemini 3.1 Pro 诚信翻盘！主榜暴涨15分，谷歌AI强势反弹？

Gemini 3.1 Pro 在今日Smoke评测中诚信评级从fail翻转为pass，主榜得分飙升15分至88.98。代码执行稳守100分，材料约束提升9.5分，但工程判断（侧榜）原地踏步。分析显示，这或是抽签波动而非真实退化，结合谷歌近期

Gemini 3.1 Pro 诚信评级 Smoke评测 AI模型波动

2026年5月13日 348

测评

Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

今日Smoke评测中，Claude Opus以89.43分领跑，Grok 4主榜暴跌25.2分执行仅50分；Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险，GPT-o3也崩23.1分，暴露AI稳定性痛点。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 382

测评

DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分，从90.1降至74，诚信评级从pass转为fail。材料约束维度下滑13.5分，引发退化质疑。本文分析波动原因，并结合近期动态给出关注判断。

DeepSeek V4 Pro 材料约束 Smoke评测模型退化

2026年5月12日 452

测评

Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分，主榜下滑7.1分，诚信评级从pass转为warn。分析显示，这可能是题目波动所致，但结合近期Anthropic动态，模型稳定性成疑，值得警惕。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 323

诚信评级 相关资讯

Qwen3 Max Smoke评测主榜暴跌12分 诚信评级从pass转为fail