测评 Gemini 3.1 Pro代码执行暴跌80分,主榜单日掉33.5 Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分,代码执行维度直接从100分崩到20分,材料约束小涨6分,诚信评级从fail转为pass。 Gemini 3.1 Pro 代码执行 Smoke评测 单日波动 2026年5月28日 285
测评 GPT-o3崩了:不是性能波动,背后的架构级的系统性崩塌 GPT-o3本周稳定性暴跌25分,可用性从100%跌至69%,长上下文能力崩塌33.5分。深度分析显示,这不是简单的性能波动,而是暴露了其架构设计的根本性缺陷。当AI遇到真实工程场景,华丽的benchmark分数瞬间现形。 GPT-o3 稳定性测试 模型架构 性能退化 2026年3月22日 635