豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因
豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分,主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分,诚信评级仍为 pass。
豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分,主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分,诚信评级仍为 pass。
在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。
今日Smoke评测中,豆包Pro材料约束从84.80降至60.80,跌24分;代码执行从38.40升至100.00,主榜从59.28升至82.36。单日10题快测下,两个核心维度出现极端反向波动,需区分题目抽签与真实能力变化。
今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。
11个模型面对同一道“疑似重复支付”SQL题,仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分,暴露了工程级SQL生成
豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。
今日Smoke轻量评测显示,GPT-o3主榜暴跌18分至58.08,执行分直接腰斩;豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分,快速挤入前五。GPT-5.5以90.3继续领跑,文心一言诚信评级降至warn。
今日Smoke轻量评测显示,豆包Pro以主榜91.23分大幅领先,代码执行拿下满分100,其余10模型执行分普遍停留在50分或0分,Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分,核心原因指向测试集难度升级与模型一致性波动。
豆包Pro今日Smoke评测主榜从96.06暴跌至77.64,代码执行单项暴降30.8分至66.7,材料约束微降,诚信评级从pass转为warn。小样本快测波动正常,但连续异常值得追踪。
豆包Pro今日Smoke评测材料约束从95分跌至79.8分,暴跌15.2分,主榜下降6.8分至90.91。代码执行保持满分,工程判断与任务表达却有提升。单日10题快测下,这一变化更可能是题目抽签波动还是模型真实退化,值得拆解。
今日Smoke轻量评测中,豆包Pro以97.75分登顶,GPT-5.5主榜暴跌23.5分至60.58,执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑,材料约束成为今日最大分水岭。
本周YZ Index主榜揭晓:Grok 3以86.88分领跑,豆包 Pro紧随其后。分析上升下滑趋势,新晋模型表现抢眼,揭示AI行业激烈竞争。