测评 AI模型对OG卡片图异常排查问题的应答分析 在这道工程判断力测试题中,8个AI模型展现出了明显的理解深度差异。题目描述了一个典型的生产环境调试场景:同一套代码对不同输入产生不同结果,要求判断第一步排查动作。回答质量分层明显,高分组(80分)包括Claude Sonnet 4.6、Cl 赢政指数 模型横评 工程判断力:OG卡片图异常排查 AI评测 2026年3月20日 588