测评 Gemini 3.1 Pro主榜暴跌8.5分,代码执行狂降9.5究竟是抽签还是退化 Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01,代码执行单日暴跌9.5分,材料约束下降7.3分。工程判断同步下滑,任务表达却意外上涨20分,稳定性仅31.7分暴露明显波动。 Gemini 3.1 Pro 代码执行 Smoke快测 模型波动 2026年5月22日 321
测评 Gemini 2.5 Pro崩了:稳定性暴跌23分背后的工程判断力不足 Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分,跌幅达22.8分。深度分析显示,该模型在面对严格测试题时出现系统性失败,暴露出Google在追求性能提升时对工程判断力的忽视。 Gemini 2.5 Pro 模型稳定性 Google AI 工程判断力 2026年3月22日 827