Gemini 2.5 Pro主榜暴跌28分,代码执行从100直接腰斩
Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分,暴跌28分,主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分,其他维度持平或微升,诚信评级维持pass。
Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分,暴跌28分,主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分,其他维度持平或微升,诚信评级维持pass。
赢政指数今日Smoke评测显示,Qwen3 Max材料约束从95.50跌至68.80(-26.7),代码执行从68.80升至100.00(+31.2),主榜从80.82升至85.96(+5.1)。单日10题快测波动正常,但需区分抽签与真实退
2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束
Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。
2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复
今日 Smoke 快测中,Gemini 3.1 Pro 以 96.96 分夺冠,Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分,拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅
今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分,代码执行维度从昨日普遍高位跌至20或0分,仅Gemini 3.1 Pro以40.48分勉强领跑,暴露当前模型在复杂代码任务上的极端脆弱性。
今日Smoke轻量评测显示,GPT-o3主榜暴跌18分至58.08,执行分直接腰斩;豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分,快速挤入前五。GPT-5.5以90.3继续领跑,文心一言诚信评级降至warn。
DeepSeek V3在最新评测中稳定性得分从53.4分骤降至32.0分,跌幅达21.4分。尽管代码执行和材料约束等维度大幅提升,但模型输出一致性严重恶化,标准差增大意味着相同输入可能产生质量差异巨大的回答。
GPT-o3本周可用性暴跌31分,从满分跌至69分。长上下文能力崩盘33.5分,稳定性下降25分。编程能力虽提升23分,但在关键生产场景的表现令人担忧。这不是普通的性能波动,而是架构级的系统性问题。
GPT-o3在最新评测中遭遇滑铁卢:长上下文得分暴跌33.5分,5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流,暴露出OpenAI基础设施的严重短板。
GPT-4o在最新评测中遭遇灾难性崩盘:长上下文得分暴跌21.9分,5道关键题目因API限流全部返回错误,可用性从100%跌至65%。这不是模型能力问题,而是OpenAI基础设施已经撑不住了。
Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分,跌幅达22.8分。深度分析显示,该模型在面对严格测试题时出现系统性失败,暴露出Google在追求性能提升时对工程判断力的忽视。
Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。
文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。
Claude Opus 4.6本周评测出现罕见翻车:在"工程判断力:安全事件响应"测试中从满分直接跌至0分,稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案,实则完全忽略了紧急响应的核心要素。
本周AI模型评测出现剧烈波动:GPT-o3稳定性暴涨8.7分登顶涨幅榜,Claude Opus 4.6却暴跌7.6分。更令人警惕的是,4个主流模型同时出现长上下文能力下滑,这可能预示着行业正面临一个技术瓶颈。