YZ Index

YZ指数 — 谁变了、为什么变了、今天该用谁

代码执行验证 · 强制引用检查 · 统计驱动排行榜 · 每周自动报告

11个主要模型 — 覆盖各厂商,新模型即时加入 154道专业题库 — 沙箱执行、引用检查、42道探测题目 5评测维度 — 代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚实性 + 运营信号 每周自动评测 — 从154题中抽取100题,最近5次滚动平均
今日决策快照
  • 主榜第1(5次平均) Claude Opus 4.7
  • 代码执行第1 Claude Opus 4.7
  • 材料约束第1 Claude Opus 4.7
  • 本周最大上升 Qwen3 Max +17.2 版本迁移
  • 本周最大下降 GPT-5.5 -23.5 版本迁移
  • 最新完整评测 06-15 09:25 SGT
  • 轻量监测 06-21 03:12 SGT
所有时间均为SGT(UTC+8)
最新评测:06-15 09:25 SGT · 11模型 · 100题 · 滚动平均 轻量监测:06-21 03:12 SGT
技术详情

Run #180 · 公式 v7 · 判分 v6.3 · 题库 v7

主榜排行榜基于最近5次完整评测的滚动平均。

「最新完整评测」显示最新的完整评分结果(从154道题库中随机抽取100道)。

「轻量监测」仅追踪短期变动和异常(各维度3题,共9题),不直接影响主榜排行榜。

主榜排行榜

查看完整排行榜
# 模型 代码执行 材料约束 主评分 誠実性 推荐
🥇 Claude Opus 4.7 93.60 97.30
95.27
推荐
🥈 Qwen3 Max 92.00 94.50
93.13
推荐
🥉 GPT-5.5 90.50 94.90
92.48
推荐
4 DeepSeek V4 Pro 87.70 97.20
91.98
推荐
5 Claude Sonnet 4.6 88.40 94.50
91.15
推荐

探索排行榜

主榜

core_overall: 代码执行 + 材料约束的加权

代码执行

算法、调试、SQL — 沙箱实际执行

材料约束

长文档理解、强制引用检查、矛盾检测

工程判断

分维度榜、规则精确判分

任务表达

分维度榜、规则精确判分

诚实性评估

pass/warn/fail 的准入门槛

性价比

能力 ÷ 价格

关于YZ指数

11
评测模型
claude、gpt、grok、gemini、DeepSeek、qwen、doubao、ernie全覆盖
154
题库
代码题目在Python沙箱中执行、材料约束题目强制引用检查、42道金丝雀探测
5+3
维度体系
代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚实性 + 性价比 · 稳定性 · 可用性
毎日
评测频率
每日凌晨轻量监测、每周完整评测100题 × 11模型、最近5次滚动平均

YZ指数的评测流程分3步:出题 → 执行 → 评分。题库共154题,每次完整评测随机抽取100题,覆盖代码执行、材料约束、工程判断、任务表达、诚实性评估5个维度。

代码题目不依赖模型自评——所有编程题目在隔离的Python沙箱中实际执行,通过单元测试验证输出。长文题目强制引用检查——模型需要引用所提供材料的原文,胡编乱造直接扣分。此外,题库中内置了42道金丝雀探测,用于检测模型的过拟合。

排行榜不看单次成绩。主榜基于最近5次完整评测的滚动平均,减轻随机波动的影响。每日凌晨的轻量监测追踪模型的短期异常,但不影响主榜排行榜。

为什么值得信赖

赢政天下成立于1998年,是中文互联网最早的技术社区之一。2025年转型为AI评测与研究平台,将28年技术社区运营经验应用于AI模型的独立评测。

YZ指数坚持3项原则:不接受模型厂商赞助以确保评测独立性、方法论完全公开任何人都可审查评测流程和评分公式、原始数据可下载供研究者用自己的方法重新分析。所有评测代码自动执行,无人为评分干预。

常见问题

YZ指数和其他AI排行榜有什么不同?

3个核心区别:1)代码题目在Python沙箱中实际执行,不依赖模型自评。2)长文题目强制引用检查,幻觉直接扣分。3)排行榜基于多次滚动平均而非单次快照,减少随机波动。此外还有42道金丝雀探测防止过拟合。

评测对象有哪些模型?

涵盖11个主要模型。包括 Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通义千问(Alibaba)等。新模型发布后,通常一周内加入。

评测频率和方法是什么?

每日凌晨轻量监测(从各维度抽取少量题目追踪变动),每周完整评测(从154道题库中随机抽取100道)。主榜排行榜基于最近5次完整评测的滚动平均,确保排行榜稳定可靠。

什么是诚实性评估?

诚实性评估是YZ指数的准入门槛机制,分 pass(合格)、warn(警告)、fail(不合格)三个等级。通过42道探测题目检测模型的引用捏造、数据伪造、出处伪装等行为。诚实性不合格的模型即使评分再高也会被标注警告标记。

如何用YZ指数选择AI模型?

根据使用场景参照对应维度:编程看「代码执行」排行榜、研究看「材料约束」排行榜、综合使用看「主榜」。「推荐」列(推荐/中立/非推荐)和「性价比」维度也可参考。通过「本周变动」了解近期趋势,避免选择下降中的模型。

所有时间均为新加坡时间(SGT, UTC+8)