YZ指数 — 谁变了、为什么变了、今天该用谁
代码执行验证 · 强制引用检查 · 统计驱动排行榜 · 每周自动报告
- 主榜第1(5次平均) Claude Opus 4.7
- 代码执行第1 Claude Opus 4.7
- 材料约束第1 Claude Opus 4.7
- 本周最大上升 Qwen3 Max +17.2 版本迁移
- 本周最大下降 GPT-5.5 -23.5 版本迁移
- 最新完整评测 06-15 09:25 SGT
- 轻量监测 06-21 03:12 SGT
技术详情
Run #180 · 公式 v7 · 判分 v6.3 · 题库 v7
主榜排行榜基于最近5次完整评测的滚动平均。
「最新完整评测」显示最新的完整评分结果(从154道题库中随机抽取100道)。
「轻量监测」仅追踪短期变动和异常(各维度3题,共9题),不直接影响主榜排行榜。
主榜排行榜
查看完整排行榜| # | 模型 | 代码执行 | 材料约束 | 主评分 | 誠実性 | 推荐 |
|---|---|---|---|---|---|---|
| 🥇 | Claude Opus 4.7 | 93.60 | 97.30 | ✓ | 推荐 | |
| 🥈 | Qwen3 Max | 92.00 | 94.50 | ✓ | 推荐 | |
| 🥉 | GPT-5.5 | 90.50 | 94.90 | ✓ | 推荐 | |
| 4 | DeepSeek V4 Pro | 87.70 | 97.20 | ✓ | 推荐 | |
| 5 | Claude Sonnet 4.6 | 88.40 | 94.50 | ✓ | 推荐 |
探索排行榜
关于YZ指数
评测方法
查看完整方法论YZ指数的评测流程分3步:出题 → 执行 → 评分。题库共154题,每次完整评测随机抽取100题,覆盖代码执行、材料约束、工程判断、任务表达、诚实性评估5个维度。
代码题目不依赖模型自评——所有编程题目在隔离的Python沙箱中实际执行,通过单元测试验证输出。长文题目强制引用检查——模型需要引用所提供材料的原文,胡编乱造直接扣分。此外,题库中内置了42道金丝雀探测,用于检测模型的过拟合。
排行榜不看单次成绩。主榜基于最近5次完整评测的滚动平均,减轻随机波动的影响。每日凌晨的轻量监测追踪模型的短期异常,但不影响主榜排行榜。
为什么值得信赖
赢政天下成立于1998年,是中文互联网最早的技术社区之一。2025年转型为AI评测与研究平台,将28年技术社区运营经验应用于AI模型的独立评测。
YZ指数坚持3项原则:不接受模型厂商赞助以确保评测独立性、方法论完全公开任何人都可审查评测流程和评分公式、原始数据可下载供研究者用自己的方法重新分析。所有评测代码自动执行,无人为评分干预。
常见问题
YZ指数和其他AI排行榜有什么不同?
3个核心区别:1)代码题目在Python沙箱中实际执行,不依赖模型自评。2)长文题目强制引用检查,幻觉直接扣分。3)排行榜基于多次滚动平均而非单次快照,减少随机波动。此外还有42道金丝雀探测防止过拟合。
评测对象有哪些模型?
涵盖11个主要模型。包括 Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通义千问(Alibaba)等。新模型发布后,通常一周内加入。
评测频率和方法是什么?
每日凌晨轻量监测(从各维度抽取少量题目追踪变动),每周完整评测(从154道题库中随机抽取100道)。主榜排行榜基于最近5次完整评测的滚动平均,确保排行榜稳定可靠。
什么是诚实性评估?
诚实性评估是YZ指数的准入门槛机制,分 pass(合格)、warn(警告)、fail(不合格)三个等级。通过42道探测题目检测模型的引用捏造、数据伪造、出处伪装等行为。诚实性不合格的模型即使评分再高也会被标注警告标记。
如何用YZ指数选择AI模型?
根据使用场景参照对应维度:编程看「代码执行」排行榜、研究看「材料约束」排行榜、综合使用看「主榜」。「推荐」列(推荐/中立/非推荐)和「性价比」维度也可参考。通过「本周变动」了解近期趋势,避免选择下降中的模型。