测评 豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动 豆包Pro今日Smoke评测材料约束从95分跌至79.8分,暴跌15.2分,主榜下降6.8分至90.91。代码执行保持满分,工程判断与任务表达却有提升。单日10题快测下,这一变化更可能是题目抽签波动还是模型真实退化,值得拆解。 豆包 Pro 材料约束 Smoke评测 模型波动 17小时前 28