模型更新相关AI资讯 | 赢政天下 AI

WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭

本轮WDCD测试中，GPT-5.5与Grok 4均暴跌12.5分，5模型合计下滑，唯Qwen3 Max上涨7.5分并闯入Top3，暴露当前主流模型在多轮约束下的脆弱性。

本轮WDCD测试5模型全线上涨，Gemini 3.1 Pro+14.2分领跑，豆包Pro+11.7分紧随，无一下滑。Qwen3 Max仍居榜首，显示上下文约束保持能力正成新竞争焦点。

本轮WDCD测试中GPT-5.5以71.67分重回第一，Gemini 2.5 Pro单轮暴涨14.2分杀入前五，而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示，主流模型在三轮约束干扰下的规则坚守能力正在快速分化。

Qwen Max本周评测稳定性维度大幅下跌22.8分，从53.0降至30.2。尽管编程和长上下文能力显著提升，但在多个基础任务上出现严重质量问题，疑似模型版本更新导致的不稳定现象。

Claude 3.5 Sonnet最新评测显示稳定性得分从54.2分骤降至31.2分，降幅高达42%。深入分析发现，模型在处理复杂任务时出现明显的性能波动，但同时在编程等其他维度却有显著提升，呈现出不均衡的优化特征。