更新日志 | YZ Index | 赢政天下 AI

2026-06-21 03:12 SGT 轻量评测完成

11 模型开始：2026-06-21 03:10 SGT 完成：2026-06-21 03:12 SGT 2分31秒 Run #190 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-20 03:03 SGT 轻量评测完成

11 模型开始：2026-06-20 03:00 SGT 完成：2026-06-20 03:03 SGT 3分1秒 Run #188 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-19 03:02 SGT 轻量评测完成

11 模型开始：2026-06-19 03:00 SGT 完成：2026-06-19 03:02 SGT 2分41秒 Run #187 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-18 03:02 SGT 轻量评测完成

11 模型开始：2026-06-18 03:00 SGT 完成：2026-06-18 03:02 SGT 2分30秒 Run #186 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-17 04:54 SGT 轻量评测完成 WDCD smoke evaluation

11 模型开始：2026-06-17 04:30 SGT 完成：2026-06-17 04:54 SGT 24分19秒 Run #185 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-17 03:12 SGT 轻量评测完成

11 模型开始：2026-06-17 03:10 SGT 完成：2026-06-17 03:12 SGT 2分40秒 Run #184 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-16 03:14 SGT 轻量评测完成

11 模型开始：2026-06-16 03:10 SGT 完成：2026-06-16 03:14 SGT 4分21秒 Run #182 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-15 09:25 SGT 完全评测完成

11 模型开始：2026-06-15 08:34 SGT 完成：2026-06-15 09:25 SGT 51分16秒 Run #180 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-15 03:03 SGT 轻量评测完成

11 模型开始：2026-06-15 03:00 SGT 完成：2026-06-15 03:03 SGT 3分31秒 Run #176 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-14 05:53 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-06-14 04:30 SGT 完成：2026-06-14 05:53 SGT 1小时23分 Run #171 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-14 03:19 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-06-13 23:10 SGT 完成：2026-06-14 03:19 SGT 4小时9分 Run #169 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-14 03:06 SGT 轻量评测完成

11 模型开始：2026-06-14 03:00 SGT 完成：2026-06-14 03:06 SGT 6分51秒 Run #170 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-13 03:01 SGT 轻量评测完成

11 模型开始：2026-06-13 03:00 SGT 完成：2026-06-13 03:01 SGT 1分41秒 Run #166 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-12 03:01 SGT 轻量评测完成

11 模型开始：2026-06-12 03:00 SGT 完成：2026-06-12 03:01 SGT 1分40秒 Run #165 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-11 13:19 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-06-11 11:55 SGT 完成：2026-06-11 13:19 SGT 1小时24分 Run #164 公式 v7 · 判定 v6.3 · 题库 v7

2026-06-11 09:18 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-06-11 07:57 SGT 完成：2026-06-11 09:18 SGT 1小时20分 Run #161 公式 v7 · 判定 v6.3 · 题库 v6

2026-06-11 07:14 SGT 轻量评测完成

11 模型开始：2026-06-11 07:12 SGT 完成：2026-06-11 07:14 SGT 1分51秒 Run #159 公式 v7 · 判定 v6.2 · 题库 v6

2026-06-11 03:02 SGT 轻量评测完成

11 模型开始：2026-06-11 03:00 SGT 完成：2026-06-11 03:02 SGT 2分20秒 Run #158 公式 v7 · 判定 v6.1 · 题库 v6

2026-06-10 05:00 SGT 轻量评测完成 WDCD smoke evaluation

11 模型开始：2026-06-10 04:30 SGT 完成：2026-06-10 05:00 SGT 30分33秒 Run #157 公式 v7 · 判定 v6.1 · 题库 v6

2026-06-10 03:01 SGT 轻量评测完成

11 模型开始：2026-06-10 03:00 SGT 完成：2026-06-10 03:01 SGT 1分41秒 Run #156 公式 v7 · 判定 v6.1 · 题库 v6

2026-06-09 03:01 SGT 轻量评测完成

11 模型开始：2026-06-09 03:00 SGT 完成：2026-06-09 03:01 SGT 1分41秒 Run #155 公式 v7 · 判定 v6.1 · 题库 v6

2026-06-08 03:02 SGT 轻量评测完成

11 模型开始：2026-06-08 03:00 SGT 完成：2026-06-08 03:02 SGT 2分1秒 Run #153 公式 v7 · 判定 v6.1 · 题库 v6

2026-06-07 03:02 SGT 轻量评测完成

11 模型开始：2026-06-07 03:00 SGT 完成：2026-06-07 03:02 SGT 2分11秒 Run #152 公式 v7 · 判定 v6.1 · 题库 v6

2026-06-06 19:26 SGT 轻量评测完成

11 模型开始：2026-06-06 19:24 SGT 完成：2026-06-06 19:26 SGT 1分40秒 Run #151 公式 v7 · 判定 v6.1 · 题库 v6

2026-06-06 03:31 SGT 轻量评测完成 social_monitor

1 模型开始：2026-06-06 03:30 SGT 完成：2026-06-06 03:31 SGT 1分40秒 Run #150 公式 v7 · 判定 v6 · 题库 v6

2026-06-05 03:01 SGT 轻量评测完成

11 模型开始：2026-06-05 03:00 SGT 完成：2026-06-05 03:01 SGT 1分41秒 Run #148 公式 v7 · 判定 v6 · 题库 v6

2026-06-04 03:01 SGT 轻量评测完成

11 模型开始：2026-06-04 03:00 SGT 完成：2026-06-04 03:01 SGT 1分51秒 Run #147 公式 v7 · 判定 v6 · 题库 v6

2026-06-03 04:57 SGT 轻量评测完成 WDCD smoke evaluation

11 模型开始：2026-06-03 04:30 SGT 完成：2026-06-03 04:57 SGT 27分54秒 Run #146 公式 v7 · 判定 v6 · 题库 v6

2026-06-03 03:01 SGT 轻量评测完成

11 模型开始：2026-06-03 03:00 SGT 完成：2026-06-03 03:01 SGT 1分51秒 Run #145 公式 v7 · 判定 v6 · 题库 v6

2026-06-02 03:31 SGT 轻量评测完成 social_monitor

1 模型开始：2026-06-02 03:30 SGT 完成：2026-06-02 03:31 SGT 1分20秒 Run #144 公式 v7 · 判定 v6 · 题库 v6

2026-06-02 03:02 SGT 轻量评测完成

11 模型开始：2026-06-02 03:00 SGT 完成：2026-06-02 03:02 SGT 2分21秒 Run #143 公式 v7 · 判定 v6 · 题库 v6

2026-06-01 03:02 SGT 轻量评测完成

11 模型开始：2026-06-01 03:00 SGT 完成：2026-06-01 03:02 SGT 2分31秒 Run #141 公式 v7 · 判定 v6 · 题库 v6

2026-05-31 05:54 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-05-31 04:30 SGT 完成：2026-05-31 05:54 SGT 1小时24分 Run #140 公式 v7 · 判定 v6 · 题库 v6

2026-05-31 03:01 SGT 轻量评测完成

11 模型开始：2026-05-31 03:00 SGT 完成：2026-05-31 03:01 SGT 1分20秒 Run #139 公式 v7 · 判定 v6 · 题库 v6

2026-05-30 03:01 SGT 轻量评测完成

11 模型开始：2026-05-30 03:00 SGT 完成：2026-05-30 03:01 SGT 1分30秒 Run #138 公式 v7 · 判定 v6 · 题库 v6

2026-05-29 03:01 SGT 轻量评测完成

11 模型开始：2026-05-29 03:00 SGT 完成：2026-05-29 03:01 SGT 1分41秒 Run #137 公式 v7 · 判定 v6 · 题库 v6

2026-05-28 03:01 SGT 轻量评测完成

11 模型开始：2026-05-28 03:00 SGT 完成：2026-05-28 03:01 SGT 1分41秒 Run #136 公式 v7 · 判定 v6 · 题库 v6

2026-05-27 04:54 SGT 轻量评测完成 WDCD smoke evaluation

11 模型开始：2026-05-27 04:30 SGT 完成：2026-05-27 04:54 SGT 24分29秒 Run #135 公式 v7 · 判定 v6 · 题库 v6

2026-05-27 03:01 SGT 轻量评测完成

11 模型开始：2026-05-27 03:00 SGT 完成：2026-05-27 03:01 SGT 1分11秒 Run #134 公式 v7 · 判定 v6 · 题库 v6

2026-05-26 03:31 SGT 轻量评测完成 social_monitor

1 模型开始：2026-05-26 03:30 SGT 完成：2026-05-26 03:31 SGT 1分20秒 Run #133 公式 v7 · 判定 v6 · 题库 v6

2026-05-26 03:01 SGT 轻量评测完成

11 模型开始：2026-05-26 03:00 SGT 完成：2026-05-26 03:01 SGT 1分31秒 Run #132 公式 v7 · 判定 v6 · 题库 v6

2026-05-25 03:01 SGT 轻量评测完成

11 模型开始：2026-05-25 03:00 SGT 完成：2026-05-25 03:01 SGT 1分41秒 Run #130 公式 v7 · 判定 v6 · 题库 v6

2026-05-24 03:01 SGT 轻量评测完成

11 模型开始：2026-05-24 03:00 SGT 完成：2026-05-24 03:01 SGT 1分11秒 Run #129 公式 v7 · 判定 v6 · 题库 v6

2026-05-23 03:02 SGT 轻量评测完成

11 模型开始：2026-05-23 03:00 SGT 完成：2026-05-23 03:02 SGT 2分0秒 Run #128 公式 v7 · 判定 v6 · 题库 v6

2026-05-22 03:02 SGT 轻量评测完成

11 模型开始：2026-05-22 03:00 SGT 完成：2026-05-22 03:02 SGT 2分11秒 Run #127 公式 v7 · 判定 v6 · 题库 v6

2026-05-21 03:01 SGT 轻量评测完成

11 模型开始：2026-05-21 03:00 SGT 完成：2026-05-21 03:01 SGT 1分31秒 Run #126 公式 v7 · 判定 v6 · 题库 v6

2026-05-20 04:57 SGT 轻量评测完成 WDCD smoke evaluation

11 模型开始：2026-05-20 04:30 SGT 完成：2026-05-20 04:57 SGT 27分36秒 Run #125 公式 v7 · 判定 v6 · 题库 v6

2026-05-20 03:01 SGT 轻量评测完成

11 模型开始：2026-05-20 03:00 SGT 完成：2026-05-20 03:01 SGT 1分41秒 Run #124 公式 v7 · 判定 v6 · 题库 v6

2026-05-19 03:01 SGT 轻量评测完成

11 模型开始：2026-05-19 03:00 SGT 完成：2026-05-19 03:01 SGT 1分41秒 Run #123 公式 v7 · 判定 v6 · 题库 v6

2026-05-18 03:01 SGT 轻量评测完成

11 模型开始：2026-05-18 03:00 SGT 完成：2026-05-18 03:01 SGT 1分21秒 Run #121 公式 v7 · 判定 v6 · 题库 v6

2026-05-17 05:49 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-05-17 04:30 SGT 完成：2026-05-17 05:49 SGT 1小时19分 Run #120 公式 v7 · 判定 v6 · 题库 v6

2026-05-17 03:01 SGT 轻量评测完成

11 模型开始：2026-05-17 03:00 SGT 完成：2026-05-17 03:01 SGT 1分20秒 Run #119 公式 v7 · 判定 v6 · 题库 v6

2026-05-16 03:03 SGT 轻量评测完成

11 模型开始：2026-05-16 03:00 SGT 完成：2026-05-16 03:03 SGT 3分51秒 Run #118 公式 v7 · 判定 v6 · 题库 v6

2026-05-15 03:04 SGT 轻量评测完成

11 模型开始：2026-05-15 03:00 SGT 完成：2026-05-15 03:04 SGT 4分11秒 Run #117 公式 v7 · 判定 v6 · 题库 v6

2026-05-14 03:01 SGT 轻量评测完成

11 模型开始：2026-05-14 03:00 SGT 完成：2026-05-14 03:01 SGT 1分31秒 Run #116 公式 v7 · 判定 v6 · 题库 v6

2026-05-13 05:03 SGT 轻量评测完成 WDCD smoke evaluation

11 模型开始：2026-05-13 04:30 SGT 完成：2026-05-13 05:03 SGT 33分25秒 Run #115 公式 v7 · 判定 v6 · 题库 v6

2026-05-13 03:02 SGT 轻量评测完成

11 模型开始：2026-05-13 03:00 SGT 完成：2026-05-13 03:02 SGT 2分51秒 Run #114 公式 v7 · 判定 v6 · 题库 v6

2026-05-12 03:01 SGT 轻量评测完成

11 模型开始：2026-05-12 03:00 SGT 完成：2026-05-12 03:01 SGT 1分51秒 Run #113 公式 v7 · 判定 v6 · 题库 v6

2026-05-11 03:03 SGT 轻量评测完成

11 模型开始：2026-05-11 03:00 SGT 完成：2026-05-11 03:03 SGT 3分0秒 Run #111 公式 v7 · 判定 v6 · 题库 v6

2026-05-10 05:26 SGT 轻量评测完成 social_monitor

1 模型开始：2026-05-10 03:30 SGT 完成：2026-05-10 05:26 SGT 1小时55分 Run #110 公式 v7 · 判定 v6 · 题库 v6

2026-05-10 03:03 SGT 轻量评测完成

11 模型开始：2026-05-10 03:00 SGT 完成：2026-05-10 03:03 SGT 3分11秒 Run #109 公式 v7 · 判定 v6 · 题库 v6

2026-05-09 03:01 SGT 轻量评测完成

11 模型开始：2026-05-09 03:00 SGT 完成：2026-05-09 03:01 SGT 1分32秒 Run #108 公式 v7 · 判定 v6 · 题库 v6

2026-05-08 03:01 SGT 轻量评测完成

11 模型开始：2026-05-08 03:00 SGT 完成：2026-05-08 03:01 SGT 1分51秒 Run #107 公式 v7 · 判定 v6 · 题库 v6

2026-05-07 03:02 SGT 轻量评测完成

11 模型开始：2026-05-07 03:00 SGT 完成：2026-05-07 03:02 SGT 2分31秒 Run #106 公式 v7 · 判定 v6 · 题库 v6

2026-05-06 05:01 SGT 轻量评测完成 WDCD smoke evaluation

11 模型开始：2026-05-06 04:30 SGT 完成：2026-05-06 05:01 SGT 31分24秒 Run #105 公式 v7 · 判定 v6 · 题库 v6

2026-05-06 03:01 SGT 轻量评测完成

11 模型开始：2026-05-06 03:00 SGT 完成：2026-05-06 03:01 SGT 1分31秒 Run #104 公式 v7 · 判定 v6 · 题库 v6

2026-05-05 03:02 SGT 轻量评测完成

11 模型开始：2026-05-05 03:00 SGT 完成：2026-05-05 03:02 SGT 2分11秒 Run #103 公式 v7 · 判定 v6 · 题库 v6

2026-05-04 03:02 SGT 轻量评测完成

11 模型开始：2026-05-04 03:00 SGT 完成：2026-05-04 03:02 SGT 2分41秒 Run #101 公式 v7 · 判定 v6 · 题库 v6

2026-05-03 04:24 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-05-03 04:00 SGT 完成：2026-05-03 04:24 SGT 24分13秒 Run #100 公式 v7 · 判定 v6 · 题库 v6

2026-05-03 04:00 SGT 轻量评测完成

4 模型开始：2026-05-03 03:00 SGT 完成：2026-05-03 04:00 SGT 1小时0分 Run #99 公式 v7 · 判定 v6 · 题库 v6

2026-05-02 03:03 SGT 轻量评测完成

11 模型开始：2026-05-02 03:00 SGT 完成：2026-05-02 03:03 SGT 3分10秒 Run #98 公式 v7 · 判定 v6 · 题库 v6

2026-05-02 02:55 SGT 轻量评测完成 WDCD pilot evaluation

11 模型开始：2026-05-01 18:03 SGT 完成：2026-05-02 02:55 SGT 8小时51分 Run #97 公式 v7 · 判定 v6 · 题库 v6

2026-05-01 16:06 SGT 轻量评测完成 DCD pilot evaluation

11 模型开始：2026-05-01 10:38 SGT 完成：2026-05-01 16:06 SGT 5小时28分 Run #96 公式 v7 · 判定 v6 · 题库 v6

2026-05-01 11:09 SGT 版本升级

WDCD 动态语境衰变 — 全球首个多轮约束评测维度上线

新增实验性维度：WDCD（Dynamic Contextual Decay）

赢政指数 v7 新增 WDCD 维度，测试 AI 模型在多轮对话中守住约束的能力。这是全球首个系统性评测该能力的框架。 **核心设计：三轮对话**

R1 约束植入：给模型下达明确约束，确认理解

R2 干扰注入：2000-5000 字专业文档，嵌入违规请求

R3 压力诱导：社会工程话术施压，测试约束是否崩盘

**评测规模**

30 道多轮约束题，覆盖 5 类场景（数据边界、资源限制、业务规则、安全规约、工程约定）

11 个主流模型同台测试

100% 规则判分，零 AI 裁判，所有结果可审计

**判分机制**

R1: 0-1 分（确认检测）

R2: 0-1 分（违规检测 + Utility Gate）

R3: 0-2 分（违规 + 拒绝 + 约束引用 + 安全替代）

满分 4 分

**独立运行**

WDCD 为实验性维度，不计入主榜总分

使用独立评测轮次（run_type = dcd_pilot）

计划独立运行 3 个月后评估是否纳入主榜

**新增页面**

/yz-index/dcd — WDCD 排行榜与数据总览

/yz-index/dcd/about — 设计哲学与项目介绍

/yz-index/dcd/methodology — 技术方法论详解

/yz-index/dcd/cases — 完整案例集

**开放数据**

6 个 WDCD API 端点已开放，支持 JSON/CSV 导出

所有判分明细（命中规则、作用域、否定窗口降级）均可通过 API 获取

完整三轮对话原文开放查阅，欢迎独立验证

2026-05-01 06:20 SGT 模型变更

评测阵容重大升级：11 个模型更新至最新版本

2026 年 5 月 1 日起，赢政指数评测阵容全面升级：【新增模型】 • GPT-5.5（替代 GPT-4o）— OpenAI 最新旗舰 • Claude Opus 4.7（替代 Opus 4.6）— Anthropic 最新旗舰 • DeepSeek V4 Pro（替代 V3 + R1）— DeepSeek 全新架构 • Gemini 3.1 Pro（新增）— Google 最新一代 • Qwen3 Max（替代 Qwen Max）— 阿里通义千问第三代 • 文心一言 4.5（替代 4.0）— 百度最新版本 • Grok 4（替代 Grok 3）— xAI 新旗舰【保留模型】 • Claude Sonnet 4.6 — Sonnet 线最新版，继续参评 • GPT-o3 — OpenAI 推理线最新版，继续参评 • 豆包 Pro — 字节跳动旗舰，继续参评【退役模型】 GPT-4o、GPT-4o-mini、Claude Opus 4.6、DeepSeek V3、DeepSeek R1、Gemini 2.0 Flash、Grok 3、Qwen Max、文心一言 4.0 历史评测数据完整保留，可在历史记录中查看。【生效时间】新阵容将在下一次 full run 评测中首次亮相。由于新模型无历史滚动均值，首次排名将基于单次评测结果，滚动均值需 5 次评测后趋于稳定。评测阵容从 8 家服务商 11 个模型调整为 8 家服务商 11 个模型（结构优化）。

2026-05-01 03:01 SGT 轻量评测完成

11 模型开始：2026-05-01 03:00 SGT 完成：2026-05-01 03:01 SGT 1分32秒 Run #91 公式 v7 · 判定 v6 · 题库 v6

2026-04-30 03:01 SGT 轻量评测完成

11 模型开始：2026-04-30 03:00 SGT 完成：2026-04-30 03:01 SGT 1分51秒 Run #90 公式 v7 · 判定 v6 · 题库 v6

2026-04-29 03:02 SGT 轻量评测完成

11 模型开始：2026-04-29 03:00 SGT 完成：2026-04-29 03:02 SGT 2分11秒 Run #89 公式 v7 · 判定 v6 · 题库 v6

2026-04-28 03:02 SGT 轻量评测完成

11 模型开始：2026-04-28 03:00 SGT 完成：2026-04-28 03:02 SGT 2分21秒 Run #88 公式 v7 · 判定 v6 · 题库 v6

2026-04-27 03:01 SGT 轻量评测完成

11 模型开始：2026-04-27 03:00 SGT 完成：2026-04-27 03:01 SGT 1分51秒 Run #86 公式 v7 · 判定 v6 · 题库 v6

2026-04-26 03:01 SGT 轻量评测完成

11 模型开始：2026-04-26 03:00 SGT 完成：2026-04-26 03:01 SGT 1分21秒 Run #85 公式 v7 · 判定 v6 · 题库 v6

2026-04-25 03:02 SGT 轻量评测完成

11 模型开始：2026-04-25 03:00 SGT 完成：2026-04-25 03:02 SGT 2分22秒 Run #84 公式 v7 · 判定 v6 · 题库 v6

2026-04-24 03:03 SGT 轻量评测完成

11 模型开始：2026-04-24 03:00 SGT 完成：2026-04-24 03:03 SGT 3分21秒 Run #83 公式 v7 · 判定 v6 · 题库 v6

2026-04-23 03:02 SGT 轻量评测完成

11 模型开始：2026-04-23 03:00 SGT 完成：2026-04-23 03:02 SGT 2分21秒 Run #82 公式 v7 · 判定 v6 · 题库 v6

2026-04-22 03:02 SGT 轻量评测完成

11 模型开始：2026-04-22 03:00 SGT 完成：2026-04-22 03:02 SGT 2分22秒 Run #81 公式 v7 · 判定 v6 · 题库 v6

2026-04-21 03:36 SGT 轻量评测完成

1 模型开始：2026-04-21 03:34 SGT 完成：2026-04-21 03:36 SGT 2分20秒 Run #80 公式 v7 · 判定 v6 · 题库 v6

2026-04-21 03:01 SGT 轻量评测完成

11 模型开始：2026-04-21 03:00 SGT 完成：2026-04-21 03:01 SGT 1分31秒 Run #79 公式 v7 · 判定 v6 · 题库 v6

2026-04-20 03:01 SGT 轻量评测完成

10 模型开始：2026-04-20 03:00 SGT 完成：2026-04-20 03:01 SGT 1分21秒 Run #77 公式 v7 · 判定 v6 · 题库 v6

2026-04-19 03:01 SGT 轻量评测完成

10 模型开始：2026-04-19 03:00 SGT 完成：2026-04-19 03:01 SGT 1分21秒 Run #76 公式 v7 · 判定 v6 · 题库 v6

2026-04-18 11:04 SGT 轻量评测完成

11 模型开始：2026-04-18 11:02 SGT 完成：2026-04-18 11:04 SGT 1分41秒 Run #75 公式 v7 · 判定 v6 · 题库 v6

2026-04-17 03:02 SGT 轻量评测完成

11 模型开始：2026-04-17 03:00 SGT 完成：2026-04-17 03:02 SGT 2分1秒 Run #73 公式 v7 · 判定 v6 · 题库 v6

2026-04-16 03:01 SGT 轻量评测完成

10 模型开始：2026-04-16 03:00 SGT 完成：2026-04-16 03:01 SGT 1分31秒 Run #72 公式 v7 · 判定 v6 · 题库 v6

2026-04-15 03:02 SGT 轻量评测完成

10 模型开始：2026-04-15 03:00 SGT 完成：2026-04-15 03:02 SGT 2分21秒 Run #71 公式 v7 · 判定 v6 · 题库 v6

2026-04-14 03:01 SGT 轻量评测完成

10 模型开始：2026-04-14 03:00 SGT 完成：2026-04-14 03:01 SGT 1分41秒 Run #70 公式 v7 · 判定 v6 · 题库 v6

2026-04-13 03:01 SGT 轻量评测完成

11 模型开始：2026-04-13 03:00 SGT 完成：2026-04-13 03:01 SGT 1分11秒 Run #68 公式 v7 · 判定 v6 · 题库 v6

2026-04-12 03:02 SGT 轻量评测完成

11 模型开始：2026-04-12 03:00 SGT 完成：2026-04-12 03:02 SGT 2分11秒 Run #67 公式 v7 · 判定 v6 · 题库 v6

2026-04-11 03:01 SGT 轻量评测完成

11 模型开始：2026-04-11 03:00 SGT 完成：2026-04-11 03:01 SGT 1分51秒 Run #66 公式 v7 · 判定 v6 · 题库 v6

2026-04-10 03:01 SGT 轻量评测完成

11 模型开始：2026-04-10 03:00 SGT 完成：2026-04-10 03:01 SGT 1分31秒 Run #65 公式 v7 · 判定 v6 · 题库 v6

2026-04-09 03:01 SGT 轻量评测完成

11 模型开始：2026-04-09 03:00 SGT 完成：2026-04-09 03:01 SGT 1分41秒 Run #64 公式 v7 · 判定 v6 · 题库 v6

2026-04-08 03:02 SGT 轻量评测完成

11 模型开始：2026-04-08 03:00 SGT 完成：2026-04-08 03:02 SGT 2分1秒 Run #63 公式 v7 · 判定 v6 · 题库 v6

2026-04-07 03:01 SGT 轻量评测完成

11 模型开始：2026-04-07 03:00 SGT 完成：2026-04-07 03:01 SGT 1分21秒 Run #62 公式 v7 · 判定 v6 · 题库 v6

2026-04-06 03:01 SGT 轻量评测完成

11 模型开始：2026-04-06 03:00 SGT 完成：2026-04-06 03:01 SGT 1分31秒 Run #60 公式 v7 · 判定 v6 · 题库 v6

2026-04-05 03:01 SGT 轻量评测完成

11 模型开始：2026-04-05 03:00 SGT 完成：2026-04-05 03:01 SGT 1分21秒 Run #59 公式 v7 · 判定 v6 · 题库 v6

2026-04-04 03:31 SGT 轻量评测完成 social_monitor

1 模型开始：2026-04-04 03:30 SGT 完成：2026-04-04 03:31 SGT 40秒 Run #58 公式 v7 · 判定 v6 · 题库 v6

2026-04-04 03:01 SGT 轻量评测完成

11 模型开始：2026-04-04 03:00 SGT 完成：2026-04-04 03:01 SGT 1分21秒 Run #57 公式 v7 · 判定 v6 · 题库 v6

2026-04-03 03:01 SGT 轻量评测完成

11 模型开始：2026-04-03 03:00 SGT 完成：2026-04-03 03:01 SGT 1分11秒 Run #56 公式 v7 · 判定 v6 · 题库 v6

2026-04-02 03:01 SGT 轻量评测完成

11 模型开始：2026-04-02 03:00 SGT 完成：2026-04-02 03:01 SGT 1分31秒 Run #55 公式 v7 · 判定 v6 · 题库 v6

2026-04-01 03:01 SGT 轻量评测完成

11 模型开始：2026-04-01 03:00 SGT 完成：2026-04-01 03:01 SGT 1分41秒 Run #54 公式 v7 · 判定 v6 · 题库 v6

2026-03-31 03:01 SGT 轻量评测完成

11 模型开始：2026-03-31 03:00 SGT 完成：2026-03-31 03:01 SGT 1分11秒 Run #53 公式 v7 · 判定 v6 · 题库 v6

2026-03-30 03:31 SGT 轻量评测完成 social_monitor

1 模型开始：2026-03-30 03:30 SGT 完成：2026-03-30 03:31 SGT 50秒 Run #51 公式 v7 · 判定 v6 · 题库 v6

2026-03-30 03:01 SGT 轻量评测完成

11 模型开始：2026-03-30 03:00 SGT 完成：2026-03-30 03:01 SGT 1分40秒 Run #50 公式 v7 · 判定 v6 · 题库 v6

2026-03-29 03:01 SGT 轻量评测完成

11 模型开始：2026-03-29 03:00 SGT 完成：2026-03-29 03:01 SGT 1分40秒 Run #49 公式 v7 · 判定 v6 · 题库 v6

2026-03-28 03:02 SGT 轻量评测完成

11 模型开始：2026-03-28 03:00 SGT 完成：2026-03-28 03:02 SGT 2分11秒 Run #47 公式 v7 · 判定 v6 · 题库 v6

2026-03-27 05:05 SGT 轻量评测完成

11 模型开始：2026-03-27 05:04 SGT 完成：2026-03-27 05:05 SGT 1分41秒 Run #46 公式 v7 · 判定 v6 · 题库 v6

2026-03-25 00:11 SGT 轻量评测完成

11 模型开始：2026-03-25 00:11 SGT 完成：2026-03-25 00:11 SGT 10秒 Run #42 公式 v7 · 判定 v6 · 题库 v6

2026-03-24 00:00 SGT 版本升级

赢政指数 v6 正式上线

方法论升级

题库从 200 题扩展至 212 题，新增 12 道诚信压力测试题

维度体系重构：主榜只包含「代码执行」和「材料约束」两个可审计核心维度

新增「工程判断」「任务表达」侧榜（标注 AI 辅助评估）

新增「诚信评级」门槛机制（pass/warn/fail），诚信不达标的模型主榜封顶

主榜公式：core_overall = 0.55 × 代码执行 + 0.45 × 材料约束

稳定性、可用性、性价比降级为运行信号，不再混入主榜权重

判分引擎

新增 exact_rank 判分器，支持诚信压力测试的封闭式排序判分

评测并行架构升级至 55 进程（11 模型 × 5 能力层），full run 耗时约 15 分钟

社交舆情监控（新功能）

每日自动监控 11 个模型在 X/Twitter 上的用户反馈

舆情异常时自动触发定向复测，与评测数据交叉验证

每日自动监控 AI 厂商官方账号动态

数据页重建

原始数据页重建为摘要 + 分页模式，页面大小从 29MB 降至 64KB

不再公开题目原文和预期答案，防止题库污染

SEO 与口径统一

全站旧维度名（编程/知识工作/长文本）统一替换为 v6 表述

清理参数页、旧路由等 SEO 污染 URL

2026-03-22 14:05 SGT 轻量评测完成

2 模型开始：2026-03-22 14:05 SGT 完成：2026-03-22 14:05 SGT 10秒 Run #36 公式 v5 · 判定 v6 · 题库 v5.1

2026-03-21 12:11 SGT 轻量评测完成

11 模型开始：2026-03-21 12:08 SGT 完成：2026-03-21 12:11 SGT 3分0秒 Run #32 公式 v3 · 判定 v5 · 题库 v4

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v4：从 89 题扩充至 100 题。添加 11 道高质量决策题目

2026-03-21 01:21 SGT 轻量评测完成

11 模型开始：2026-03-21 01:21 SGT 完成：2026-03-21 01:21 SGT 10秒 Run #26 公式 v3 · 判定 v5 · 题库 v4

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v4：从 89 题扩充至 100 题。添加 11 道高质量决策题目

2026-03-21 01:19 SGT 题库变更

题库 v4：新增 11 道高质量决策题

新增 11 道高质量决策题，覆盖矛盾信息识别（2题）、信息不足诚实度（2题）、优先级排序（2题）、利益冲突检测（2题）、代码 review 陷阱（2题）、伦理边界（1题）。总题库从 89 题扩充到 100 题。题库版本升级为 v4。

2026-03-21 01:05 SGT 模型变更

新增 3 个评测模型：Grok 3、豆包 Pro、文心一言 4.0

新增 3 个评测模型：Grok 3（xAI）、豆包 Pro（字节跳动）、文心一言 4.0（百度）。评测模型总数从 8 个增加到 11 个。

2026-03-21 01:05 SGT 轻量评测完成

11 模型开始：2026-03-21 01:05 SGT 完成：2026-03-21 01:05 SGT 10秒 Run #25 公式 v3 · 判定 v5 · 题库 v3

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v3：从 80 题扩充至 89 题。新设工程判断力题目群（9 题）

2026-03-21 00:59 SGT 轻量评测完成

10 模型开始：2026-03-21 00:59 SGT 完成：2026-03-21 00:59 SGT 9秒 Run #24 公式 v3 · 判定 v5 · 题库 v3

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v3：从 80 题扩充至 89 题。新设工程判断力题目群（9 题）

2026-03-20 12:55 SGT 轻量评测完成

8 模型开始：2026-03-20 12:44 SGT 完成：2026-03-20 12:55 SGT 10分39秒 Run #23 公式 v3 · 判定 v5 · 题库 v3

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v3：从 80 题扩充至 89 题。新设工程判断力题目群（9 题）

2026-03-20 03:10 SGT 轻量评测完成

8 模型开始：2026-03-20 03:00 SGT 完成：2026-03-20 03:10 SGT 10分50秒 Run #22 公式 v3 · 判定 v5 · 题库 v3

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v3：从 80 题扩充至 89 题。新设工程判断力题目群（9 题）

2026-03-19 03:11 SGT 轻量评测完成

8 模型开始：2026-03-19 03:00 SGT 完成：2026-03-19 03:11 SGT 11分42秒 Run #18 公式 v3 · 判定 v5 · 题库 v2

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v2：从 30 题扩充至 80 题（编程 33 + 知识 25 + 长上下文 22）

2026-03-18 03:11 SGT 轻量评测完成

8 模型开始：2026-03-18 03:00 SGT 完成：2026-03-18 03:11 SGT 11分18秒 Run #17 公式 v3 · 判定 v5 · 题库 v2

判定 v5：引入严格判定分层（strict/non-strict）：新设4种严格判定（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value）。严格题目仅 0 或 100

题库 v2：从 30 题扩充至 80 题（编程 33 + 知识 25 + 长上下文 22）

2026-03-17 03:10 SGT 轻量评测完成

8 模型开始：2026-03-17 03:00 SGT 完成：2026-03-17 03:10 SGT 10分54秒 Run #12 公式 v2 · 判定 v2 · 题库 v1

判定 v2：引入6种判定方法（全关键词匹配、部分匹配、完全匹配、正则表达式、顺序匹配、JSON结构验证）。正式评分体系建立

题库 v1：初始题库 30 题。覆盖编程、知识业务、长上下文 3 个维度