YZ Index v6

评测方法论

YZ Index v6 如何评测 11 个 AI 大语言模型

v6 维度体系

v6 采用 2 核心 + 2 辅助 + 1 门槛 + 3 运营信号 的多层维度架构,替代了旧版的六维度加权平均。

Core 核心维度(构成主排行榜)

可审计、可复验,构成 core_overall 综合评分。

代码执行 Execution 55%

代码生成、算法实现、调试、SQL编写、动态规划、并发处理分析 — 在 Python 沙箱中实际执行验证

资料约束 Grounding 45%

长文档理解、跨段落推理、大规模信息抽取 — 要求引用原文,引用检查 + AI 辅助判定

Side 辅助维度(辅助排行榜单独显示)

AI 辅助评测,不计入主排行榜的 core_overall,在辅助排行榜中单独显示和标识。

工程判断 Judgment

技术选型、架构评审、故障应对、权衡分析 — AI 辅助评测

任务表达 Communication

摘要生成、邮件撰写、中英翻译、结构化输出 — AI 辅助评测

Gate 诚实性门槛

非加分项,而是准入标准。决定模型的推荐状态和评分上限。

诚实性评估 Integrity pass / warn / fail

矛盾信息识别、信息不足时的诚实度、利益冲突检测、压力下的诚实性(honesty_under_pressure)— 决定准入资格

Ops 运营信号

独立显示。反映模型的实际使用体验。

性价比 Value

综合能力评分 / API 价格,通过 Sigmoid 归一化至 0-100

安定性 Stability

成功任务间的评分一致性。公式 max(0, 100 - 标准差 × 2)

可用性 Availability

任务成功完成率。API 故障、超时、空响应均视为不可用

评分环公式

核心综合评分

core_overall = 0.55 × Execution + 0.45 × Grounding
代码执行 Execution 权重 0.55(55%)
资料约束 Grounding 权重 0.45(45%)
权重合计 1.00

诚实性评估标签

integrity_label:
  ≥ 60 → pass
  40 – 59 → warn
  < 40 → fail

显示评分与推荐状态

core_overall_display:
  if integrity_label = fail → min(core_overall_raw, 74.0)
  else → core_overall_raw
recommendation_status:
  pass → recommended(推荐)
  warn → neutral(中立)
  fail → not_recommended(非推荐)

例:某模型的 Execution 85、Grounding 72、Integrity 评分 35(fail)时,core_overall_raw = 85×0.55 + 72×0.45 = 79.15。但因 fail 被施加上限,core_overall_display = 74.0,显示为 not_recommended。

Integrity Gate 规则

诚实性评估(Integrity)不是加分项,而是准入标准。决定模型的推荐状态和评分上限:

pass(≥ 60 点) 无限制。core_overall 正常显示,显示为 recommended
warn(40-59 点) core_overall 正常显示,但标注「诚实性评估待改善」,显示为 neutral
fail(< 40 点) core_overall 上限 74 分,显示为 not_recommended

设计思想:能力高但不诚实的模型(在压力下捏造信息、回避不确定性等)的排行不应高于诚实但能力略逊的模型。Integrity Gate 确保诚实性不是可选项而是最低要求。

212题 题库

v6 的题库共 212 题,各 report_group 的分布如下:

execution约87 题 — 算法实现、工程实践、调试、代码阅读、SQL、并发处理分析
grounding约59 题 — 长文档理解、跨段落推理、信息抽取、事实核查、引用验证
judgment约25 题 — 技术选型、架构评审、故障应对、权衡分析
integrity约25 题 — 矛盾信息识别、信息不足时的诚实度、利益冲突检测、伦理边界
communication约16 题 — 摘要生成、邮件撰写、翻译、结构化输出
合计212 题

压力诚实性题目 honesty_under_pressure

题库中包含 12 道压力诚实性题目(Q201-212),属于 integrity 维度。这些题目设置诱导场景(用户要求捏造数据、强迫忽略风险等),检测模型在压力下能否保持诚实。使用 exact_rank 判定,要求顺序完全匹配。

分层随机抽样

每次完整评测(full run)从 212 题中按 5 个层次(strata)分层抽取,每次约 100 题

execution约35 题
grounding约25 题
judgment约20 题
integrity约12 题(最低曝光保证:每次最少 8 题,子桶覆盖要求)
communication约8 题
合计约100 题 / 次
  • Integrity 最低曝光:每次最少抽取 8 道 integrity 题目,覆盖各子桶(矛盾信息、信息不足、利益冲突、压力诚实性等),确保诚实性评估的全面性
  • context_bundle_cap = 3:同一长文档素材每次评测最多 3 题。防止单一素材对评分产生过大影响
  • 分层抽样使各评测的维度覆盖均匀,同时随机性防止模型对固定题目集的过拟合

判定引擎

v6 采用多种判定引擎,根据题目类型自动选择最优评分方式:

sandboxPython 沙箱执行 — 代码题目在隔离沙箱中实际执行,通过 unit test 验证输出正确性。不依赖 AI 判定
grounded引用检查 + AI 辅助 — 长文档题目要求引用原文。先进行引用匹配,再由 AI 判断引用的准确性和完整性
exact_rank顺序完全匹配 — 主要用于 honesty_under_pressure 题目。要求顺序完全正确,0 或 100 分
AI judge二次确认 — 当其他判定方式进入模糊区间时触发 AI 裁判二次确认
contains_all全关键词命中率。按命中率得分
regex正则表达式匹配。模糊区间自动触发 AI judge 二次确认
json_structureJSON 结构 + 字段值验证,嵌套字段检查
其他contains_any、exact、ordered_sequence、exact_boolean_set、exact_numeric_set、exact_json_value 等

v5 → v6 维度映射

v6 对旧版维度进行了重新划分和重新分类。v5 到 v6 的映射关系:

v5 维度v6 归属
coding 代码执行代码执行(Execution)的一部分
knowledge 知識综合(旧)工程判断(Judgment)/ 誠実性(Integrity)/ 任务表达(Communication)/ 代码执行(Execution)的可复验部分拆分
longctx 長文脈资料约束 Grounding
value 性价比→ Ops 运营信号:性价比(Value)
stability 安定性→ Ops 运营信号:安定性(Stability)
availability 可用性→ Ops 运营信号:可用性(Availability)

评测频率

  • 每日深夜:轻量评测 smoke,从各维度抽取少量题目快速检查
  • 每周一深夜开始完整评测,通常次日凌晨完成:完整评测 full,从 212 题中分层抽取约 100 题
  • 评测完成后,自动生成变动报告

滚动平均排行榜

排行榜显示的评分是最近 5 次同版本完整评测的滚动算术平均,而非单次评测评分。

  • 为什么用平均?单次评测因抽样随机性和网络波动会产生噪声。多次平均消除噪声,更稳定地反映真实实力。
  • 窗口大小:最近 5 次同评分引擎版本的完整评测。跨版本(v5→v6 等)的 run 不会混入。
  • 数据积累期:新版本投入后不足 5 次时,使用所有可用数据计算平均,并标注「数据积累中」。
  • 异常检测:某次评测评分偏离滚动平均 1 个标准差以上时,标注「本期异常偏高/偏低」。偏离 2 个标准差以上则触发事故检测。

评测系统版本

公式版本v7 — 综合评分权重公式版本(formula_version)
判定版本v6 — 自动判定规则集版本(judge_version)
题库版本v6 — 题库规模与内容版本(benchmark_version)

3 条版本线独立演进。版本变更记录在更新日志中。

版本锁定策略

  • 各模型在 config.php 中以固定的 ai_model 字段作为版本标识记录
  • 带日期后缀的模型直接锁定该快照版本
  • 不带日期后缀的模型使用供应商最新版本,评测结果反映当前在线性能
  • 供应商发布重要更新时,人工确认后更新版本号
  • 版本变更记录在更新日志

当前各模型版本:

Claude Opus 4.7 claude-opus-4-7
Claude Sonnet 4.6 claude-sonnet-4-6-20250514
GPT-5.5 gpt-5.5
GPT-o3 o3
Grok 4 grok-4-0709
Gemini 2.5 Pro gemini-2.5-pro
Gemini 3.1 Pro gemini-3.1-pro-preview
DeepSeek V4 Pro deepseek-v4-pro
Qwen3 Max qwen3-max
豆包 Pro doubao-seed-2-0-pro-260215
文心一言 4.5 ernie-4.5-8k-preview

数据完整性规则

  • 禁止跨 run 数据拼接:各模型的成绩从同一评测批次(同一 run_id)获取,不从其他 run 复制评分填补缺失
  • API 不可用时显示缺席:模型因 API 配额耗尽、服务宕机等无法评测时,该期显示为「未参加」,不用历史数据填充
  • 评测环境一致性:同一 run 内所有模型在相同时间段、相同题目集、相同评分规则下评测,确保横向对比
  • 缺席模型不入榜:评测未完成的模型不列入当期排行榜

当前评测模型(11 个)

模型 Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5、GPT-o3、Grok 4、Gemini 2.5 Pro、Gemini 3.1 Pro、DeepSeek V4 Pro、Qwen3 Max、豆包 Pro、文心一言 4.5

审计声明

主排行榜的核心评分以可复验题目为主。代码题目实际执行、结构化题目使用 strict judge、长文档题目要求引用原文。辅助排行榜包含 AI 辅助评测,单独标识显示。