YZ Index

YZ指数 — 谁变了、为什么变了、今天该用谁

Q: 评测频率和方法是什么？

每日凌晨轻量监测，每周完整评测（从154道题库中随机抽取100道）。主榜排行榜基于最近5次完整评测的滚动平均。

代码执行验证 · 强制引用检查 · 统计驱动排行榜 · 每周自动报告

11个主要模型 — 覆盖各厂商，新模型即时加入 154道专业题库 — 沙箱执行、引用检查、42道探测题目 5评测维度 — 代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚实性 + 运营信号每周自动评测 — 从154题中抽取100题，最近5次滚动平均

查看主榜查看变动查看方法论

今日决策快照

主榜第1（5次平均） Claude Opus 4.7
代码执行第1 Claude Opus 4.7
材料约束第1 Claude Opus 4.7
本周最大上升 Qwen3 Max +17.2 版本迁移
本周最大下降 GPT-5.5 -23.5 版本迁移
最新完整评测 06-15 09:25 SGT
轻量监测 06-21 03:12 SGT

所有时间均为SGT（UTC+8）

最新评测：06-15 09:25 SGT · 11模型 · 100题 · 滚动平均轻量监测：06-21 03:12 SGT

技术详情

Run #180 · 公式 v7 · 判分 v6.3 · 题库 v7

主榜排行榜基于最近5次完整评测的滚动平均。

「最新完整评测」显示最新的完整评分结果（从154道题库中随机抽取100道）。

「轻量监测」仅追踪短期变动和异常（各维度3题，共9题），不直接影响主榜排行榜。

#	模型	代码执行	材料约束	主评分	誠実性	推荐
🥇	Claude Opus 4.7	93.60	97.30	95.27	✓	推荐
🥈	Qwen3 Max	92.00	94.50	93.13	✓	推荐
🥉	GPT-5.5	90.50	94.90	92.48	✓	推荐
4	DeepSeek V4 Pro	87.70	97.20	91.98	✓	推荐
5	Claude Sonnet 4.6	88.40	94.50	91.15	✓	推荐

主榜

core_overall: 代码执行 + 材料约束的加权

代码执行

算法、调试、SQL — 沙箱实际执行

材料约束

长文档理解、强制引用检查、矛盾检测

工程判断

分维度榜、规则精确判分

任务表达

分维度榜、规则精确判分

诚实性评估

pass/warn/fail 的准入门槛

性价比

能力 ÷ 价格

关于YZ指数

评测模型

claude、gpt、grok、gemini、DeepSeek、qwen、doubao、ernie全覆盖

154

题库

代码题目在Python沙箱中执行、材料约束题目强制引用检查、42道金丝雀探测

5+3

维度体系

代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚实性 + 性价比 · 稳定性 · 可用性

毎日

评测频率

每日凌晨轻量监测、每周完整评测100题 × 11模型、最近5次滚动平均

YZ指数的评测流程分3步：出题 → 执行 → 评分。题库共154题，每次完整评测随机抽取100题，覆盖代码执行、材料约束、工程判断、任务表达、诚实性评估5个维度。

代码题目不依赖模型自评——所有编程题目在隔离的Python沙箱中实际执行，通过单元测试验证输出。长文题目强制引用检查——模型需要引用所提供材料的原文，胡编乱造直接扣分。此外，题库中内置了42道金丝雀探测，用于检测模型的过拟合。

排行榜不看单次成绩。主榜基于最近5次完整评测的滚动平均，减轻随机波动的影响。每日凌晨的轻量监测追踪模型的短期异常，但不影响主榜排行榜。

赢政天下成立于1998年，是中文互联网最早的技术社区之一。2025年转型为AI评测与研究平台，将28年技术社区运营经验应用于AI模型的独立评测。

YZ指数坚持3项原则：不接受模型厂商赞助以确保评测独立性、方法论完全公开任何人都可审查评测流程和评分公式、原始数据可下载供研究者用自己的方法重新分析。所有评测代码自动执行，无人为评分干预。

YZ指数和其他AI排行榜有什么不同？

3个核心区别：1）代码题目在Python沙箱中实际执行，不依赖模型自评。2）长文题目强制引用检查，幻觉直接扣分。3）排行榜基于多次滚动平均而非单次快照，减少随机波动。此外还有42道金丝雀探测防止过拟合。

评测对象有哪些模型？

涵盖11个主要模型。包括 Claude（Anthropic）、GPT（OpenAI）、DeepSeek、Gemini（Google）、Grok（xAI）、通义千问（Alibaba）等。新模型发布后，通常一周内加入。

评测频率和方法是什么？

每日凌晨轻量监测（从各维度抽取少量题目追踪变动），每周完整评测（从154道题库中随机抽取100道）。主榜排行榜基于最近5次完整评测的滚动平均，确保排行榜稳定可靠。

什么是诚实性评估？

诚实性评估是YZ指数的准入门槛机制，分 pass（合格）、warn（警告）、fail（不合格）三个等级。通过42道探测题目检测模型的引用捏造、数据伪造、出处伪装等行为。诚实性不合格的模型即使评分再高也会被标注警告标记。

如何用YZ指数选择AI模型？

根据使用场景参照对应维度：编程看「代码执行」排行榜、研究看「材料约束」排行榜、综合使用看「主榜」。「推荐」列（推荐/中立/非推荐）和「性价比」维度也可参考。通过「本周变动」了解近期趋势，避免选择下降中的模型。

YZ指数 — 谁变了、为什么变了、今天该用谁

主榜排行榜

探索排行榜

主榜

代码执行

材料约束

工程判断

任务表达

诚实性评估

性价比

关于YZ指数

评测方法

为什么值得信赖

常见问题