测评 本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场 本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分 Qwen3 Max 代码执行 模型迭代 主榜洗牌 8小时前 29
测评 Qwen3 Max主榜暴跌10.9分,代码执行单日腰斩25分 Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。 Qwen3 Max 代码执行 模型评测 性能波动 13小时前 26