测评 Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌 Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的 WDCD 守约测试 AI模型评估 周期变化 6小时前 101