- 1 Claude Sonnet 4.6 83.0
- 2 豆包 Pro 81.3
- 3 Grok 4 81.0
- 4 Claude Opus 4.7 80.0
- 5 Gemini 2.5 Pro 79.0
11个AI同解连续登录SQL题:8个满分3个直接崩盘
在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。
继续阅读赢政指数看板
查看完整排行 »- 1 GPT-5.5 71.7%
- 2 Qwen3 Max 67.5%
- 3 Claude Opus 4.7 66.7%
- 4 GPT-o3 65.8%
- 5 Gemini 2.5 Pro 64.2%
- ↓ Gemini 2.5 Pro -5.0分
- ↓ 豆包 Pro -5.7分
- ↑ Claude Sonnet 4.6 +8.2分
- ↑ GPT-o3 +18.1分
- ⚠ GPT-o3 严格题"SQL:连续登录天数"从满分
- ⚠ GPT-o3 严格题"Debug:矩阵旋转"从满分
Lab 原创
更多评测最新资讯
查看全部11 个 AI 解同一道逻辑题,5 家正确 6 家集体出错
11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。
11 模型同答 SQL 留存题:9 家 0 分,DeepSeek 与 Grok 仅 66.7
在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模型在精确多步分析 SQL 上的系统性短板。
11个AI同答SQL题:3个直接0分,Claude与GPT为何崩盘
11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60,正确使用DATE_SUB或兼容INTERVAL语法;Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分,因日期区间写法与主流MySQL方言冲突,导致查询无法执行。
本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。
3大模型翻译对决:第21周质量评测,gpt-o3 以 8.7 分领跑
本周共翻译 242 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
Anthropic中国AI政策报告引争议 94%服从率数据曝光与管制呼吁
Anthropic于2026年5月16日发布涉中国AI地缘政策报告,列出解放军AI部署数据,指出中国模型94%服从恶意请求,呼吁美国维持领先并收紧出口管制。该报告在X平台引发支持者与批评者激烈辩论。本文从赢政指数视角分析其创新与不足,提供开发者与企业实用建议,突出专业技术价值观。
arXiv拟禁AI幻觉引用论文 学术诚信争议激烈对立
2026年5月16日,arXiv平台宣布新政策:若论文含AI生成的幻觉引用或元评论,作者将被禁投稿1年。此举在X平台引发正反激烈讨论,支持者强调维护学术诚信,反对者担忧过度惩罚并扼杀AI辅助研究。winzheng.com Research Lab基于Google核验的18个来源,分析政策对AI辅助科研的影响,区分事实与观点,提出技术价值观指引。
前谷歌CEO施密特AI演讲遭嘘声 学生就业警惕与支持者反智论激烈碰撞
2026年5月17日亚利桑那州大学毕业典礼上,前谷歌CEO埃里克·施密特谈及AI发展引发学生集体嘘声。事件经Polymarket等传播后,AI支持者与反对者观点尖锐对立。本文从深层社会经济动因出发,结合多源核验事实,分析异常信号背后原因,并给出独立判断。
苹果Siri大改版,或新增自动删除聊天功能
据TechCrunch报道,苹果即将在WWDC上推出大幅升级的Siri,隐私保护将成为核心亮点。新版本可能引入自动删除聊天记录功能,以进一步巩固用户数据安全。业内分析认为,此举将推动智能语音助手行业更重视隐私合规,但也可能带来功能与便利性的平衡挑战。
信任危机:马斯克诉OpenAI案聚焦Altman
在马斯克诉OpenAI案的庭审最后阶段,信任成为核心议题:OpenAI CEO Sam Altman是否值得信赖?这一质疑直指Altman在非营利初衷、安全承诺以及技术路线上的反复言行。本案不仅关乎两位科技巨头的恩怨,更对整个AI行业治理与公众信任构成深刻拷问。
Gemini 3.1 Pro主榜暴跌11.1分,代码执行从100直接腰斩
Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。
Qwen3 Max主榜暴跌10.9分,代码执行单日腰斩25分
Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。