测评 Smoke轻测:豆包Pro执行100分独秀,9模型主榜暴跌30分以上 今日Smoke轻量评测显示,豆包Pro以主榜91.23分大幅领先,代码执行拿下满分100,其余10模型执行分普遍停留在50分或0分,Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分,核心原因指向测试集难度升级与模型一致性波动。 豆包 Pro 代码执行 主榜暴跌 评测异常 6小时前 54