测评 GPT-o3蓄水池采样题100分骤降至0,代码执行真相藏细节 v6评测中GPT-o3主榜上涨7分至82.82,但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分,材料约束提升14分,稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断,暴露算法实现一致性缺陷。 GPT-o3 代码执行 蓄水池采样 得分波动 10小时前 47