测评 GPT-4o代码执行暴跌23.7分:版本更新引发性能雪崩 GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8,降幅达23.7分。多项核心维度出现断崖式下跌,特别是性价比和稳定性分别下降54.1和52.2分,显示模型在版本更新后出现严重性能退化。 GPT-4o 代码执行 性能下降 模型评测 2026年3月31日 457
测评 11个AI模型周测:GPT-4o材料约束暴跌10分,国产文心逆势上涨 赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。 GPT-4o 文心一言 材料约束 代码执行 2026年3月24日 476