测评 11个AI答同一道调试题:5个直接得零分,致命差距在哪? 一道PHP图片生成的调试题,11个主流AI模型中竟有5个得零分。高分模型都提到了"对比数据差异",而零分模型只会泛泛而谈"检查参数"。这道题暴露了AI在实际工程问题上的致命短板。 豆包Pro Claude 工程调试 模型评测 2026年3月21日 512