测评 11模型同答甩锅题:8个A>B>D>C,3个直接0分 11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。 execution grounding 工程判断 模型排序 11小时前 62