评测方法论
YZ Index v6 如何评测 11 个 AI 大语言模型
v6 维度体系
v6 采用 2 核心 + 2 辅助 + 1 门槛 + 3 运营信号 的多层维度架构,替代了旧版的六维度加权平均。
Core 核心维度(构成主排行榜)
可审计、可复验,构成 core_overall 综合评分。
代码生成、算法实现、调试、SQL编写、动态规划、并发处理分析 — 在 Python 沙箱中实际执行验证
长文档理解、跨段落推理、大规模信息抽取 — 要求引用原文,引用检查 + AI 辅助判定
Side 辅助维度(辅助排行榜单独显示)
AI 辅助评测,不计入主排行榜的 core_overall,在辅助排行榜中单独显示和标识。
技术选型、架构评审、故障应对、权衡分析 — AI 辅助评测
摘要生成、邮件撰写、中英翻译、结构化输出 — AI 辅助评测
Gate 诚实性门槛
非加分项,而是准入标准。决定模型的推荐状态和评分上限。
矛盾信息识别、信息不足时的诚实度、利益冲突检测、压力下的诚实性(honesty_under_pressure)— 决定准入资格
Ops 运营信号
独立显示。反映模型的实际使用体验。
综合能力评分 / API 价格,通过 Sigmoid 归一化至 0-100
成功任务间的评分一致性。公式 max(0, 100 - 标准差 × 2)
任务成功完成率。API 故障、超时、空响应均视为不可用
评分环公式
核心综合评分
| 代码执行 Execution | 权重 0.55(55%) |
|---|---|
| 资料约束 Grounding | 权重 0.45(45%) |
| 权重合计 | 1.00 |
诚实性评估标签
≥ 60 → pass
40 – 59 → warn
< 40 → fail
显示评分与推荐状态
if integrity_label = fail → min(core_overall_raw, 74.0)
else → core_overall_raw
pass → recommended(推荐)
warn → neutral(中立)
fail → not_recommended(非推荐)
例:某模型的 Execution 85、Grounding 72、Integrity 评分 35(fail)时,core_overall_raw = 85×0.55 + 72×0.45 = 79.15。但因 fail 被施加上限,core_overall_display = 74.0,显示为 not_recommended。
Integrity Gate 规则
诚实性评估(Integrity)不是加分项,而是准入标准。决定模型的推荐状态和评分上限:
| pass(≥ 60 点) | 无限制。core_overall 正常显示,显示为 recommended |
|---|---|
| warn(40-59 点) | core_overall 正常显示,但标注「诚实性评估待改善」,显示为 neutral |
| fail(< 40 点) | core_overall 上限 74 分,显示为 not_recommended |
设计思想:能力高但不诚实的模型(在压力下捏造信息、回避不确定性等)的排行不应高于诚实但能力略逊的模型。Integrity Gate 确保诚实性不是可选项而是最低要求。
212题 题库
v6 的题库共 212 题,各 report_group 的分布如下:
| execution | 约87 题 — 算法实现、工程实践、调试、代码阅读、SQL、并发处理分析 |
|---|---|
| grounding | 约59 题 — 长文档理解、跨段落推理、信息抽取、事实核查、引用验证 |
| judgment | 约25 题 — 技术选型、架构评审、故障应对、权衡分析 |
| integrity | 约25 题 — 矛盾信息识别、信息不足时的诚实度、利益冲突检测、伦理边界 |
| communication | 约16 题 — 摘要生成、邮件撰写、翻译、结构化输出 |
| 合计 | 212 题 |
压力诚实性题目 honesty_under_pressure
题库中包含 12 道压力诚实性题目(Q201-212),属于 integrity 维度。这些题目设置诱导场景(用户要求捏造数据、强迫忽略风险等),检测模型在压力下能否保持诚实。使用 exact_rank 判定,要求顺序完全匹配。
分层随机抽样
每次完整评测(full run)从 212 题中按 5 个层次(strata)分层抽取,每次约 100 题:
| execution | 约35 题 |
|---|---|
| grounding | 约25 题 |
| judgment | 约20 题 |
| integrity | 约12 题(最低曝光保证:每次最少 8 题,子桶覆盖要求) |
| communication | 约8 题 |
| 合计 | 约100 题 / 次 |
- Integrity 最低曝光:每次最少抽取 8 道 integrity 题目,覆盖各子桶(矛盾信息、信息不足、利益冲突、压力诚实性等),确保诚实性评估的全面性
- context_bundle_cap = 3:同一长文档素材每次评测最多 3 题。防止单一素材对评分产生过大影响
- 分层抽样使各评测的维度覆盖均匀,同时随机性防止模型对固定题目集的过拟合
判定引擎
v6 采用多种判定引擎,根据题目类型自动选择最优评分方式:
| sandbox | Python 沙箱执行 — 代码题目在隔离沙箱中实际执行,通过 unit test 验证输出正确性。不依赖 AI 判定 |
|---|---|
| grounded | 引用检查 + AI 辅助 — 长文档题目要求引用原文。先进行引用匹配,再由 AI 判断引用的准确性和完整性 |
| exact_rank | 顺序完全匹配 — 主要用于 honesty_under_pressure 题目。要求顺序完全正确,0 或 100 分 |
| AI judge | 二次确认 — 当其他判定方式进入模糊区间时触发 AI 裁判二次确认 |
| contains_all | 全关键词命中率。按命中率得分 |
| regex | 正则表达式匹配。模糊区间自动触发 AI judge 二次确认 |
| json_structure | JSON 结构 + 字段值验证,嵌套字段检查 |
| 其他 | contains_any、exact、ordered_sequence、exact_boolean_set、exact_numeric_set、exact_json_value 等 |
v5 → v6 维度映射
v6 对旧版维度进行了重新划分和重新分类。v5 到 v6 的映射关系:
| v5 维度 | v6 归属 |
|---|---|
| coding 代码执行 | → 代码执行(Execution)的一部分 |
| knowledge 知識综合(旧) | → 工程判断(Judgment)/ 誠実性(Integrity)/ 任务表达(Communication)/ 代码执行(Execution)的可复验部分拆分 |
| longctx 長文脈 | → 资料约束 Grounding |
| value 性价比 | → Ops 运营信号:性价比(Value) |
| stability 安定性 | → Ops 运营信号:安定性(Stability) |
| availability 可用性 | → Ops 运营信号:可用性(Availability) |
评测频率
- 每日深夜:轻量评测 smoke,从各维度抽取少量题目快速检查
- 每周一深夜开始完整评测,通常次日凌晨完成:完整评测 full,从 212 题中分层抽取约 100 题
- 评测完成后,自动生成变动报告
滚动平均排行榜
排行榜显示的评分是最近 5 次同版本完整评测的滚动算术平均,而非单次评测评分。
- 为什么用平均?单次评测因抽样随机性和网络波动会产生噪声。多次平均消除噪声,更稳定地反映真实实力。
- 窗口大小:最近 5 次同评分引擎版本的完整评测。跨版本(v5→v6 等)的 run 不会混入。
- 数据积累期:新版本投入后不足 5 次时,使用所有可用数据计算平均,并标注「数据积累中」。
- 异常检测:某次评测评分偏离滚动平均 1 个标准差以上时,标注「本期异常偏高/偏低」。偏离 2 个标准差以上则触发事故检测。
评测系统版本
| 公式版本 | v7 — 综合评分权重公式版本(formula_version) |
|---|---|
| 判定版本 | v6 — 自动判定规则集版本(judge_version) |
| 题库版本 | v6 — 题库规模与内容版本(benchmark_version) |
3 条版本线独立演进。版本变更记录在更新日志中。
版本锁定策略
- 各模型在 config.php 中以固定的 ai_model 字段作为版本标识记录
- 带日期后缀的模型直接锁定该快照版本
- 不带日期后缀的模型使用供应商最新版本,评测结果反映当前在线性能
- 供应商发布重要更新时,人工确认后更新版本号
- 版本变更记录在更新日志中
当前各模型版本:
| Claude Opus 4.7 | claude-opus-4-7 |
|---|---|
| Claude Sonnet 4.6 | claude-sonnet-4-6-20250514 |
| GPT-5.5 | gpt-5.5 |
| GPT-o3 | o3 |
| Grok 4 | grok-4-0709 |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 3.1 Pro | gemini-3.1-pro-preview |
| DeepSeek V4 Pro | deepseek-v4-pro |
| Qwen3 Max | qwen3-max |
| 豆包 Pro | doubao-seed-2-0-pro-260215 |
| 文心一言 4.5 | ernie-4.5-8k-preview |
数据完整性规则
- 禁止跨 run 数据拼接:各模型的成绩从同一评测批次(同一 run_id)获取,不从其他 run 复制评分填补缺失
- API 不可用时显示缺席:模型因 API 配额耗尽、服务宕机等无法评测时,该期显示为「未参加」,不用历史数据填充
- 评测环境一致性:同一 run 内所有模型在相同时间段、相同题目集、相同评分规则下评测,确保横向对比
- 缺席模型不入榜:评测未完成的模型不列入当期排行榜
当前评测模型(11 个)
| 模型 | Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5、GPT-o3、Grok 4、Gemini 2.5 Pro、Gemini 3.1 Pro、DeepSeek V4 Pro、Qwen3 Max、豆包 Pro、文心一言 4.5 |
|---|
审计声明
主排行榜的核心评分以可复验题目为主。代码题目实际执行、结构化题目使用 strict judge、长文档题目要求引用原文。辅助排行榜包含 AI 辅助评测,单独标识显示。