测评 Gemini 3.1 Pro主榜暴跌11.1分,代码执行从100直接腰斩 Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。 Gemini 3.1 Pro 代码执行 Smoke评测 模型退化 13小时前 31