头条推荐

11个AI同解连续登录SQL题:8个满分3个直接崩盘

在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。

2小时前 44 阅读
继续阅读

赢政指数看板

查看完整排行 »
综合排行 Top 5
  1. 1 Claude Sonnet 4.6 83.0
  2. 2 豆包 Pro 81.3
  3. 3 Grok 4 81.0
  4. 4 Claude Opus 4.7 80.0
  5. 5 Gemini 2.5 Pro 79.0
WDCD 守约 Top 5
  1. 1 GPT-5.5 71.7%
  2. 2 Qwen3 Max 67.5%
  3. 3 Claude Opus 4.7 66.7%
  4. 4 GPT-o3 65.8%
  5. 5 Gemini 2.5 Pro 64.2%
本周动态
  • Gemini 2.5 Pro -5.0分
  • 豆包 Pro -5.7分
  • Claude Sonnet 4.6 +8.2分
  • GPT-o3 +18.1分
  • GPT-o3 严格题"SQL:连续登录天数"从满分
  • GPT-o3 严格题"Debug:矩阵旋转"从满分

Lab 原创

更多评测

最新资讯

查看全部
NF

Anthropic中国AI政策报告引争议 94%服从率数据曝光与管制呼吁

Anthropic于2026年5月16日发布涉中国AI地缘政策报告,列出解放军AI部署数据,指出中国模型94%服从恶意请求,呼吁美国维持领先并收紧出口管制。该报告在X平台引发支持者与批评者激烈辩论。本文从赢政指数视角分析其创新与不足,提供开发者与企业实用建议,突出专业技术价值观。

AI地缘政治 Anthropic 出口管制
5小时前 38
NF

arXiv拟禁AI幻觉引用论文 学术诚信争议激烈对立

2026年5月16日,arXiv平台宣布新政策:若论文含AI生成的幻觉引用或元评论,作者将被禁投稿1年。此举在X平台引发正反激烈讨论,支持者强调维护学术诚信,反对者担忧过度惩罚并扼杀AI辅助研究。winzheng.com Research Lab基于Google核验的18个来源,分析政策对AI辅助科研的影响,区分事实与观点,提出技术价值观指引。

arXiv政策 AI幻觉 学术诚信
5小时前 38