模型稳定性相关AI资讯

Gemini 2.5 Pro主榜暴跌28分，代码执行从100直接腰斩

Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分，暴跌28分，主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分，其他维度持平或微升，诚信评级维持pass。

Qwen3 Max材料约束暴跌26.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Qwen3 Max材料约束从95.50跌至68.80（-26.7），代码执行从68.80升至100.00（+31.2），主榜从80.82升至85.96（+5.1）。单日10题快测波动正常，但需区分抽签与真实退

Qwen3 Max 材料约束 Smoke评测得分波动

7小时前 58

测评

Grok 4材料约束暴跌25.6分四模型主榜满分并列

2026-06-18 Smoke评测中，Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分，导致主榜仅87分，与满分模型差距13分。执行维度11模型中有10个满分，约束

Grok 4 材料约束 Smoke评测执行与约束

4天前 138

测评

Qwen3 Max材料约束暴跌28.9分主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分，降幅28.9分，但代码执行从50.00分升至75.00分，主榜得分反而升0.8分至73.25分。单日10题快测下，这种波动更可能是题目抽签所致。

Qwen3 Max 材料约束 Smoke评测得分波动

5天前 145

测评

Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

2026-W24 Smoke三天数据显示，Claude Opus 4.7从96.83跌至69.91，GPT-5.5从92.19升至95.24，成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分，诚信评级反复

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 250

测评

Gemini 3.1 Pro 96.96 分微弱领先，Claude Opus 4.7 仅差 0.13

今日 Smoke 快测中，Gemini 3.1 Pro 以 96.96 分夺冠，Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分，拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距

2026年6月12日 220

测评

Smoke评测全员腰斩：11模型主榜平均暴跌42分，代码执行维度集体失守

今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分，代码执行维度从昨日普遍高位跌至20或0分，仅Gemini 3.1 Pro以40.48分勉强领跑，暴露当前模型在复杂代码任务上的极端脆弱性。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 334

测评

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示，GPT-o3主榜暴跌18分至58.08，执行分直接腰斩；豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分，快速挤入前五。GPT-5.5以90.3继续领跑，文心一言诚信评级降至warn。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 305

测评

DeepSeek V3稳定性暴跌21.4分：模型输出一致性危机深度剖析

DeepSeek V3在最新评测中稳定性得分从53.4分骤降至32.0分，跌幅达21.4分。尽管代码执行和材料约束等维度大幅提升，但模型输出一致性严重恶化，标准差增大意味着相同输入可能产生质量差异巨大的回答。

DeepSeek V3 模型稳定性 AI评测性能波动

2026年4月27日 482

测评

GPT-o3崩了：31分暴跌背后的致命缺陷

GPT-o3本周可用性暴跌31分，从满分跌至69分。长上下文能力崩盘33.5分，稳定性下降25分。编程能力虽提升23分，但在关键生产场景的表现令人担忧。这不是普通的性能波动，而是架构级的系统性问题。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 709

测评

GPT-o3崩了：30秒限流5次，长文本评测暴跌33.5分

GPT-o3在最新评测中遭遇滑铁卢：长上下文得分暴跌33.5分，5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流，暴露出OpenAI基础设施的严重短板。

GPT-o3 长上下文 API限流模型稳定性

2026年3月22日 648

测评

GPT-4o崩了：5道题全军覆没暴露OpenAI基础设施问题

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。

GPT-4o 长上下文 OpenAI基础设施 API限流

2026年3月22日 589

测评

Gemini 2.5 Pro崩了：稳定性暴跌23分背后的工程判断力不足

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分，跌幅达22.8分。深度分析显示，该模型在面对严格测试题时出现系统性失败，暴露出Google在追求性能提升时对工程判断力的忽视。

Gemini 2.5 Pro 模型稳定性 Google AI 工程判断力

2026年3月22日 827

测评

Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患

Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分，成为其最大短板。通过分析具体失分案例，发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化，可能与模型更新或服务端调整有关。

Gemini 模型稳定性性能评测 AI安全

2026年3月22日 1,247

测评

文心一言4.0稳定性骤降22分背后的技术隐患

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分，跌幅达22.1分，创下近期最大降幅。通过分析丢分题目发现，模型在处理复杂推理和格式化输出时表现出明显的不一致性，暴露出潜在的系统性问题。

文心一言模型稳定性性能评测 AI测评

2026年3月22日 473

测评

Claude 4.6崩了：100分安全题全军覆没背后的致命缺陷

Claude Opus 4.6本周评测出现罕见翻车：在"工程判断力：安全事件响应"测试中从满分直接跌至0分，稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案，实则完全忽略了紧急响应的核心要素。

Claude Opus 4.6 工程判断力安全事件响应 AI决策失误

2026年3月21日 492

测评

GPT-o3暴涨8.7分背后：11个AI模型本周评测揭秘3个危险信号

本周AI模型评测出现剧烈波动：GPT-o3稳定性暴涨8.7分登顶涨幅榜，Claude Opus 4.6却暴跌7.6分。更令人警惕的是，4个主流模型同时出现长上下文能力下滑，这可能预示着行业正面临一个技术瓶颈。

GPT-o3 豆包Pro 模型稳定性长上下文处理

2026年3月21日 427

模型稳定性 相关资讯