Gemini 2.5 Pro主榜暴跌28分,代码执行从100直接腰斩
Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分,暴跌28分,主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分,其他维度持平或微升,诚信评级维持pass。
Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分,暴跌28分,主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分,其他维度持平或微升,诚信评级维持pass。
赢政指数 2026-W25 Smoke 7 天数据显示,Grok 4 趋势上涨 19.8 分至 100,DeepSeek V4 Pro 均值 98.7 分保持领先;Gemini 2.5 Pro 与 Gemini 3.1 Pro 波动分别达
Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察
赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。
今日 Smoke 评测中,Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03,执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶,执行 100 分、约束 89.5 分(warn)领先,GPT-o3 紧
Gemini 2.5 Pro今日Smoke评测出现明显分化:材料约束从91.5暴跌至77.5,主榜却从74升至89.88。诚信评级从fail转为warn,工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动,还是模型真实能力退化。
Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74,工程判断从66.7跌至30,任务表达从50跌至10,诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化,值得重点关注。
Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分,但代码执行仍为 100,材料约束反涨 9.8,真正警报来自诚信评级由 pass 转 fail。
Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54,诚信评级从fail转为pass,但工程判断(侧榜)暴跌28.4分至30.00。分析显示,这或是抽签波动而非真实退化,但需警惕潜在不稳定性。核心维度材料约束
Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分,跌幅达22.8分。深度分析显示,该模型在面对严格测试题时出现系统性失败,暴露出Google在追求性能提升时对工程判断力的忽视。
本周评测爆出重大问题:面对客户数据泄露这种P0级安全事故,Gemini 2.5 Pro竟然只是选择"立即上报",完全没有采取任何实质性止损措施。这暴露出当前AI大模型在关键决策场景下的致命短板。
Gemini 2.5 Pro在最新评测中遭遇滑铁卢:时区推理题从满分直接跌至0分,综合评分下降2.9分。这道看似简单的题目暴露了大模型在处理现实世界常识问题时的致命缺陷。