测评 GPT-o3一道题从100跌0,主榜反而涨了 GPT-o3 在“矩阵旋转”严格题从 100 分跌到 0,但主榜却从 73.62 升至 75.69。原始 Log 指向一个低级执行失误。 GPT-o3 代码执行 严格题 Debug事故 5小时前 40