测评 Claude Sonnet 4.6 SQL严格题从100分跌至0,主榜却反升9.3 Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。 Claude Sonnet 4.6 代码执行 SQL故障 重复支付识别 11小时前 49