Gemini_3.1_Pro 相关AI资讯

Smoke评测：Qwen3 Max约束+23分逆袭，GPT-o3材料约束暴跌15.2分

2026年6月19日Smoke评测显示，Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分，主榜升至97.35分；GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分，暴露结构脆弱性。

11模型代码执行集体暴跌，GPT-5.5 95.24分领跑Smoke轻量榜

2026-06-14 Smoke评测显示，GPT-5.5主榜95.24分（执行96、约束94.3）位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分，主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 274

测评

Gemini 3.1 Pro 96.96 分微弱领先，Claude Opus 4.7 仅差 0.13

今日 Smoke 快测中，Gemini 3.1 Pro 以 96.96 分夺冠，Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分，拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距

2026年6月12日 220

测评

Gemini 3.1 Pro代码执行暴跌80分，主榜单日掉33.5

Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分，代码执行维度直接从100分崩到20分，材料约束小涨6分，诚信评级从fail转为pass。

Gemini 3.1 Pro 代码执行 Smoke评测单日波动

2026年5月28日 285

测评

Smoke评测全员腰斩：11模型主榜平均暴跌42分，代码执行维度集体失守

今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分，代码执行维度从昨日普遍高位跌至20或0分，仅Gemini 3.1 Pro以40.48分勉强领跑，暴露当前模型在复杂代码任务上的极端脆弱性。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 337

测评

Gemini 3.1 Pro主榜暴跌8.5分，代码执行狂降9.5究竟是抽签还是退化

Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01，代码执行单日暴跌9.5分，材料约束下降7.3分。工程判断同步下滑，任务表达却意外上涨20分，稳定性仅31.7分暴露明显波动。

Gemini 3.1 Pro 代码执行 Smoke快测模型波动

2026年5月22日 324

测评

Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩

Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00，代码执行单维度暴跌25分至75，材料约束小涨6分。主因是代码执行出现明显失误，需区分题目抽签波动与真实能力退化。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 245

测评

Gemini 3.1 Pro 诚信翻盘！主榜暴涨15分，谷歌AI强势反弹？

Gemini 3.1 Pro 在今日Smoke评测中诚信评级从fail翻转为pass，主榜得分飙升15分至88.98。代码执行稳守100分，材料约束提升9.5分，但工程判断（侧榜）原地踏步。分析显示，这或是抽签波动而非真实退化，结合谷歌近期

Gemini 3.1 Pro 诚信评级 Smoke评测 AI模型波动

2026年5月13日 328

原创

赢政研究院：娱乐至死还是疯狂搞钱？48小时AI大洗牌：大模型正式步入残酷“包工头”时代

过去三周，大模型赛道发生剧变。AI 已从“你问我答的顾问”正式进化为“拿钱办事的包工头” 。Claude 4.6 凭借极强的 Agentic（代理）能力沦为企业与军方的“印钞机”与核心组件；Gemini 3.1 Pro 以半价策略和原生

AgenticAI Claude_4.6 Gemini_3.1_Pro Grok

2026年2月24日 916

Gemini_3.1_Pro 相关资讯