YZ Index

YZ指数 — 谁变了、为什么变了、今天该用谁

代码执行验证 · 强制引用检查 · 统计驱动排行榜 · 每周自动报告

11个主要模型 — 覆盖各厂商,新模型即时加入 212道专业题库 — 沙箱执行、引用检查、42道探测题目 5评测维度 — 代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚实性 + 运营信号 每周自动评测 — 从212题中抽取100题,最近5次滚动平均
今日决策快照
  • 主榜第1(5次平均) Grok 3
  • 代码执行第1 豆包 Pro
  • 材料约束第1 Grok 3
  • 本周最大上升 文心一言 4.0 +15
  • 最新完整评测 05-04 06:00 SGT
  • 轻量监测 05-07 03:02 SGT
所有时间均为SGT(UTC+8)
最新评测:05-04 06:00 SGT · 11模型 · 100题 · 滚动平均 轻量监测:05-07 03:02 SGT
技术详情

Run #87 · 公式 v7 · 判分 v6 · 题库 v6

主榜排行榜基于最近5次完整评测的滚动平均。

「最新完整评测」显示最新的完整评分结果(从212道题库中随机抽取100道)。

「轻量监测」仅追踪短期变动和异常(各维度3题,共9题),不直接影响主榜排行榜。

本周亮点

2026年 第19周

主榜排行榜

查看完整排行榜
# 模型 代码执行 材料约束 主评分 誠実性 推荐
🥇 Grok 3 88.90 84.40
86.88
推荐
🥈 豆包 Pro 92.20 79.40
86.44
推荐
🥉 Gemini 2.5 Pro 89.40 78.10
84.32
推荐
4 Claude Sonnet 4.6 86.50 81.10
84.07
推荐
5 Claude Opus 4.6 86.50 79.70
83.44
推荐

探索排行榜

主榜

core_overall: 代码执行 + 材料约束的加权

代码执行

算法、调试、SQL — 沙箱实际执行

材料约束

长文档理解、强制引用检查、矛盾检测

工程判断

辅助榜、AI辅助评测

任务表达

辅助榜、AI辅助评测

诚实性评估

pass/warn/fail 的准入门槛

性价比

能力 ÷ 价格

关于YZ指数

11
评测模型
claude、gpt、grok、gemini、DeepSeek、qwen、doubao、ernie全覆盖
212
题库
代码题目在Python沙箱中执行、材料约束题目强制引用检查、42道金丝雀探测
5+3
维度体系
代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚实性 + 性价比 · 稳定性 · 可用性
毎日
评测频率
每日凌晨轻量监测、每周完整评测100题 × 11模型、最近5次滚动平均

YZ指数的评测流程分3步:出题 → 执行 → 评分。题库共212题,每次完整评测随机抽取100题,覆盖代码执行、材料约束、工程判断、任务表达、诚实性评估5个维度。

代码题目不依赖模型自评——所有编程题目在隔离的Python沙箱中实际执行,通过单元测试验证输出。长文题目强制引用检查——模型需要引用所提供材料的原文,胡编乱造直接扣分。此外,题库中内置了42道金丝雀探测,用于检测模型的过拟合。

排行榜不看单次成绩。主榜基于最近5次完整评测的滚动平均,减轻随机波动的影响。每日凌晨的轻量监测追踪模型的短期异常,但不影响主榜排行榜。

为什么值得信赖

赢政天下成立于1998年,是中文互联网最早的技术社区之一。2025年转型为AI评测与研究平台,将28年技术社区运营经验应用于AI模型的独立评测。

YZ指数坚持3项原则:不接受模型厂商赞助以确保评测独立性、方法论完全公开任何人都可审查评测流程和评分公式、原始数据可下载供研究者用自己的方法重新分析。所有评测代码自动执行,无人为评分干预。

常见问题

YZ指数和其他AI排行榜有什么不同?

3个核心区别:1)代码题目在Python沙箱中实际执行,不依赖模型自评。2)长文题目强制引用检查,幻觉直接扣分。3)排行榜基于多次滚动平均而非单次快照,减少随机波动。此外还有42道金丝雀探测防止过拟合。

评测对象有哪些模型?

涵盖11个主要模型。包括 Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通义千问(Alibaba)等。新模型发布后,通常一周内加入。

评测频率和方法是什么?

每日凌晨轻量监测(从各维度抽取少量题目追踪变动),每周完整评测(从212道题库中随机抽取100道)。主榜排行榜基于最近5次完整评测的滚动平均,确保排行榜稳定可靠。

什么是诚实性评估?

诚实性评估是YZ指数的准入门槛机制,分 pass(合格)、warn(警告)、fail(不合格)三个等级。通过42道探测题目检测模型的引用捏造、数据伪造、出处伪装等行为。诚实性不合格的模型即使评分再高也会被标注警告标记。

如何用YZ指数选择AI模型?

根据使用场景参照对应维度:编程看「代码执行」排行榜、研究看「材料约束」排行榜、综合使用看「主榜」。「推荐」列(推荐/中立/非推荐)和「性价比」维度也可参考。通过「本周变动」了解近期趋势,避免选择下降中的模型。

所有时间均为新加坡时间(SGT, UTC+8)