DeepSeek V4 Pro 主榜暴跌16分!诚信评级崩盘,模型真退化?
DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分,从90.1降至74,诚信评级从pass转为fail。材料约束维度下滑13.5分,引发退化质疑。本文分析波动原因,并结合近期动态给出关注判断。
DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分,从90.1降至74,诚信评级从pass转为fail。材料约束维度下滑13.5分,引发退化质疑。本文分析波动原因,并结合近期动态给出关注判断。
Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分,主榜下滑7.1分,诚信评级从pass转为warn。分析显示,这可能是题目波动所致,但结合近期Anthropic动态,模型稳定性成疑,值得警惕。