测评 11个AI同答甩锅题,仅8款给出正确排序:工程判断力差异拉满 同一道“项目延期甩锅”题,11款主流模型中8款输出A>B>D>C并获60分,Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前,仅得0分。核心发现显示,工程判断与诚信排序能力在当前模型间已出现明显断层。 工程判断 诚信评级 甩锅测试 项目延期 8小时前 58