测评 GPT-4o严格题0分翻车:当AI遇到周五发布这道送命题 GPT-4o在"周五发布决策"严格题上从满分跌至0分,暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时,GPT-4o给出了教科书式的错误答案。 GPT-4o 工程判断力 周五发布 生产事故 2026年3月21日 282
测评 豆包Pro满分题归零:AI在真实安全事件中为何集体失声 豆包Pro在最新评测中遭遇戏剧性滑铁卢:原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景,为何会出现如此离谱的判断失误?原始回答暴露了什么深层问题? 豆包Pro 工程判断力 安全事件响应 AI测评 2026年3月21日 401