YZ指数 — 谁变了、为什么变了、今天该用谁
代码执行验证 · 强制引用检查 · 统计驱动排行榜 · 每周自动报告
- 主榜第1(5次平均) Grok 3
- 代码执行第1 豆包 Pro
- 材料约束第1 Grok 3
- 本周最大上升 文心一言 4.0 +15
- 最新完整评测 05-04 06:00 SGT
- 轻量监测 05-07 03:02 SGT
技术详情
Run #87 · 公式 v7 · 判分 v6 · 题库 v6
主榜排行榜基于最近5次完整评测的滚动平均。
「最新完整评测」显示最新的完整评分结果(从212道题库中随机抽取100道)。
「轻量监测」仅追踪短期变动和异常(各维度3题,共9题),不直接影响主榜排行榜。
本周亮点
2026年 第19周主榜排行榜
查看完整排行榜| # | 模型 | 代码执行 | 材料约束 | 主评分 | 誠実性 | 推荐 |
|---|---|---|---|---|---|---|
| 🥇 | Grok 3 | 88.90 | 84.40 | ✓ | 推荐 | |
| 🥈 | 豆包 Pro | 92.20 | 79.40 | ✓ | 推荐 | |
| 🥉 | Gemini 2.5 Pro | 89.40 | 78.10 | ✓ | 推荐 | |
| 4 | Claude Sonnet 4.6 | 86.50 | 81.10 | ✓ | 推荐 | |
| 5 | Claude Opus 4.6 | 86.50 | 79.70 | ✓ | 推荐 |
探索排行榜
关于YZ指数
评测方法
查看完整方法论YZ指数的评测流程分3步:出题 → 执行 → 评分。题库共212题,每次完整评测随机抽取100题,覆盖代码执行、材料约束、工程判断、任务表达、诚实性评估5个维度。
代码题目不依赖模型自评——所有编程题目在隔离的Python沙箱中实际执行,通过单元测试验证输出。长文题目强制引用检查——模型需要引用所提供材料的原文,胡编乱造直接扣分。此外,题库中内置了42道金丝雀探测,用于检测模型的过拟合。
排行榜不看单次成绩。主榜基于最近5次完整评测的滚动平均,减轻随机波动的影响。每日凌晨的轻量监测追踪模型的短期异常,但不影响主榜排行榜。
为什么值得信赖
赢政天下成立于1998年,是中文互联网最早的技术社区之一。2025年转型为AI评测与研究平台,将28年技术社区运营经验应用于AI模型的独立评测。
YZ指数坚持3项原则:不接受模型厂商赞助以确保评测独立性、方法论完全公开任何人都可审查评测流程和评分公式、原始数据可下载供研究者用自己的方法重新分析。所有评测代码自动执行,无人为评分干预。
常见问题
YZ指数和其他AI排行榜有什么不同?
3个核心区别:1)代码题目在Python沙箱中实际执行,不依赖模型自评。2)长文题目强制引用检查,幻觉直接扣分。3)排行榜基于多次滚动平均而非单次快照,减少随机波动。此外还有42道金丝雀探测防止过拟合。
评测对象有哪些模型?
涵盖11个主要模型。包括 Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通义千问(Alibaba)等。新模型发布后,通常一周内加入。
评测频率和方法是什么?
每日凌晨轻量监测(从各维度抽取少量题目追踪变动),每周完整评测(从212道题库中随机抽取100道)。主榜排行榜基于最近5次完整评测的滚动平均,确保排行榜稳定可靠。
什么是诚实性评估?
诚实性评估是YZ指数的准入门槛机制,分 pass(合格)、warn(警告)、fail(不合格)三个等级。通过42道探测题目检测模型的引用捏造、数据伪造、出处伪装等行为。诚实性不合格的模型即使评分再高也会被标注警告标记。
如何用YZ指数选择AI模型?
根据使用场景参照对应维度:编程看「代码执行」排行榜、研究看「材料约束」排行榜、综合使用看「主榜」。「推荐」列(推荐/中立/非推荐)和「性价比」维度也可参考。通过「本周变动」了解近期趋势,避免选择下降中的模型。