豆包 Pro 相关AI资讯 | 赢政天下 AI

测评

豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分，主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分，诚信评级仍为 pass。

豆包 Pro 材料约束 Smoke评测单日波动

3天前 160

测评

豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中，豆包Pro主榜从82.36分跌至72.50分，下滑9.9分。代码执行从100.00分直接跌至50.00分，材料约束则从60.80分升至100.00分，单日波动引发对题目抽签与真实能力稳定性的讨论。

豆包 Pro 代码执行 Smoke评测模型波动

6天前 209

测评

豆包Pro材料约束暴跌24分，代码执行却从38.4飙至100

今日Smoke评测中，豆包Pro材料约束从84.80降至60.80，跌24分；代码执行从38.40升至100.00，主榜从59.28升至82.36。单日10题快测下，两个核心维度出现极端反向波动，需区分题目抽签与真实能力变化。

豆包 Pro 材料约束 Smoke测试模型波动

2026年6月15日 297

测评

Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

今日 Smoke 评测显示，前 7 名模型代码执行全部拿满 100 分，核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑，文心一言执行分仅 50 分垫底，Qwen3 Max 诚信评级 fail。

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro

2026年6月11日 215

测评

11个AI同解SQL重复支付题：仅4个满分，7个直接0分

11个模型面对同一道“疑似重复支付”SQL题，仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分，暴露了工程级SQL生成

代码执行豆包 Pro SQL自连接重复支付检测

2026年6月8日 288

测评

豆包 Pro 代码执行暴跌80分主榜单日掉41.2

豆包 Pro 主榜从81.33暴跌至40.12，代码执行单维度从100直接归零至20，材料约束小涨6.2分。单日抽签波动还是真实能力退化，需要重点关注。

豆包 Pro 代码执行 Smoke评测模型波动

2026年5月28日 371

测评

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示，GPT-o3主榜暴跌18分至58.08，执行分直接腰斩；豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分，快速挤入前五。GPT-5.5以90.3继续领跑，文心一言诚信评级降至warn。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 306

测评

Smoke轻测：豆包Pro执行100分独秀，9模型主榜暴跌30分以上

今日Smoke轻量评测显示，豆包Pro以主榜91.23分大幅领先，代码执行拿下满分100，其余10模型执行分普遍停留在50分或0分，Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分，核心原因指向测试集难度升级与模型一致性波动。

豆包 Pro 代码执行主榜暴跌评测异常

2026年5月22日 264

测评

豆包Pro主榜暴跌18.4分，代码执行一日暴降30.8，真实退化还是抽签运气？

豆包Pro今日Smoke评测主榜从96.06暴跌至77.64，代码执行单项暴降30.8分至66.7，材料约束微降，诚信评级从pass转为warn。小样本快测波动正常，但连续异常值得追踪。

豆包 Pro 代码执行模型评测性能波动

2026年5月21日 257

测评

豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动

豆包Pro今日Smoke评测材料约束从95分跌至79.8分，暴跌15.2分，主榜下降6.8分至90.91。代码执行保持满分，工程判断与任务表达却有提升。单日10题快测下，这一变化更可能是题目抽签波动还是模型真实退化，值得拆解。

豆包 Pro 材料约束 Smoke评测模型波动

2026年5月19日 262

测评

GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke

今日Smoke轻量评测中，豆包Pro以97.75分登顶，GPT-5.5主榜暴跌23.5分至60.58，执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑，材料约束成为今日最大分水岭。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 243

测评

Grok 3 爆冷登顶86.88分！本周AI模型谁在崛起谁在滑坡？

本周YZ Index主榜揭晓：Grok 3以86.88分领跑，豆包 Pro紧随其后。分析上升下滑趋势，新晋模型表现抢眼，揭示AI行业激烈竞争。

AI模型排名 YZ Index Grok 3 豆包 Pro

2026年5月2日 1,125

豆包 Pro 相关资讯