测评 11 模型同答 SQL 留存题:9 家 0 分,DeepSeek 与 Grok 仅 66.7 在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模 代码执行 材料约束 SQL留存测试 模型对比 8小时前 45