AI测评与评价

WDCD横评：业务规则场景最低1.55分 grok-4安全合规3.86夺冠

WDCD v3.1五大约束场景横评显示，业务规则场景全体得分最低，doubao-pro与qwen3-max仅1.55/4垫底；grok-4在安全合规拿下3.86/4最高分，同时在全部场景保持第一；Claude-sonnet-4.6工程规范与业务规则差距达1.76分，偏科最严重。

R3诚信率仅30.2%：11模型三轮锚点题44次完全崩溃

v2锚点题数据显示，R1确认率99%，R2抵抗率63%，R3诚信率仅30.2%，275次测试中出现44次完全崩溃。GPT-o3与GPT-5.5在R2阶段快速失守，Grok4和Claude系列R3崩溃率控制在8%以内，展现不同模型在多轮压力下的守约韧性差异。

Grok 4 91.20 分登顶 WDCD 守约榜，Qwen3 Max 57.48 分垫底拉开 33.72 分差距

Grok 4 以 91.20 分位列 WDCD 守约排行榜第一，Qwen3 Max 57.48 分垫底，头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%，R3 崩溃率达 16%，v2 锚点题 R3 得分成为区分关键。

GPT-5.5 执行满分 86.95 分领跑 Smoke 评测，约束短板暴露

2026-07-03 Smoke 评测显示，GPT-5.5 以执行 100 分、约束 71 分拿下主榜 86.95 分首位。Claude Sonnet 4.6 紧随其后，主榜 86.12 分。豆包 Pro 则以约束 81.7 分反超执行表现，凸显不同模型在执行与约束间的结构差异。

Gemini 3.1 Pro 82.97 分登顶，执行 75 分拉开与第二名差距

2026-07-02 Smoke 评测显示，Gemini 3.1 Pro 以主榜 82.97 分（执行 75、约束 92.7）位居第一，豆包 Pro 81.98 分紧随其后。Claude Opus 4.7 约束 97 分最高，但执行仅 58.3 分。昨日多模型执行分数出现 30 分以上回落，凸显执行维度波动对主榜排名的直接影响。

WDCD三轮测试：Grok 4零崩溃 GPT-5.5五次R3崩盘

WDCD三轮测试显示R1确认率98%、R2抵抗率77%、R3诚信率81.4%，Grok 4全程满分，GPT-5.5 R3崩溃5次，多约束场景下安全合规与数据边界约束最易失效。

Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底

Grok 4 以 WDCD 100.00 分满分排名第一，GPT-5.5 以 62.50 分垫底；R3 崩溃率 12.7%，头部与尾部差距达 37.5 分，Claude 系列本期提升显著。

豆包Pro Smoke评测主榜暴跌18.6分代码执行单日跌38.8

豆包Pro今日Smoke评测主榜从85.91分跌至67.32分，代码执行从83.30分暴跌至44.50分，材料约束反而升至95.20分。单日10题快测中代码执行维度出现大幅波动。

Grok 4 Smoke评测主榜暴跌15.3分代码执行单日跌31.4

赢政指数今日Smoke评测显示，Grok 4主榜从97.98分跌至82.73分，降幅15.3分，其中代码执行从100.00分骤降至68.60分。材料约束和任务表达反而上升，诚信评级维持pass。单日10题快测下，此类波动是否反映真实能力变化值得拆解。

Claude Opus 4.7 94.82 分登顶，Gemini 3.1 Pro 暴跌 32.2 分

2026-07-01 Smoke 轻量评测显示，Claude Opus 4.7 以 94.82 分（执行 94.5，约束 95.2）占据主榜首位，Claude Sonnet 4.6 紧随其后。Gemini 3.1 Pro 主榜暴跌 32.2 分，执行从昨日高位骤降 57 分，凸显执行与约束搭配对排名的决定性影响。

Claude Sonnet 4.6 Smoke主榜暴跌15.3分，代码执行单日掉25分

今日Smoke评测中，Claude Sonnet 4.6主榜从97.84分跌至82.52分，降幅15.3分。其中代码执行从100.00直接跌到75.00，材料约束小降3.5分，而工程判断和任务表达反而分别升10.4分和16.7分。

Claude Opus 4.7 Smoke测试主榜暴跌16分，代码执行单日掉27.2

在赢政指数今日Smoke评测中，Claude Opus 4.7主榜从100.00分跌至84.01分，代码执行维度从100.00分暴跌至72.80分，降幅达27.2分。材料约束仅降2.3分，工程判断反而上升9.1分，诚信评级维持pass。

Gemini 3.1 Pro 98.47 分登顶，Claude 执行分暴跌 27.2 后仅剩 72.8

2026-06-30 Smoke 评测显示，Gemini 3.1 Pro 以 98.47 分（执行 100、约束 96.6）排名第一。Claude Opus 4.7 执行分暴跌 27.2 至 72.8，主榜跌 16 分；文心一言 4.5 主榜跌 17.1 分。DeepSeek V4 Pro 靠 98.9 约束分挤进前三，执行与约束搭配差异成为今日核心看点。

AI评估披露困境：传统补丁模式为何失效

MLCommons指出，AI系统与传统软件不同，其评估发现具有双重用途、无法通过补丁修复，且开放权重模型的危害会永久存在。协调漏洞披露（CVD）模式因此失效。文章分析了三大核心挑战：发现易被滥用、过度反馈会污染测试、无法集中修复模型。MLCommons正推动ISO/IEC TS 42119-8标准制定，并为即将发布的越狱基准制定负责任披露政策，以保护公共安全、评估完整性及不可修复系统。

MLCommons Chakra 工作组于 2023 年成立，旨在解决 AI 系统快速发展带来的基准测试与软硬件协同设计难题。通过标准化执行追踪（Execution Trace），Chakra 提供了一个开放、可互操作的生态系统，支持从真实工作负载收集追踪，到模拟、回放和硬件在环验证的全生命周期。本文详述其在 PyTorch、vLLM、ASTRA-sim 等框架的集成，以及开源追踪库的发布，助力学术界和产业界更高效地参与前沿 AI 平台设计。

MLCommons 发布 MLPerf Mobile v6.0，新增设备端 LLM 基准

MLCommons 正式推出 MLPerf Mobile v6.0 版本，新增针对 Android 设备运行大语言模型的生成式 AI 基准测试。该版本引入 Llama 3.2 1B、3B 及 Llama 3.1 8B Instruct 模型，基于 TinyMMLU 和 IFEval 数据集评估性能与准确性。同时支持 CPU 推理，并新增对高通骁龙 8 Elite Gen 5 NPU 的加速支持。此外，还扩展了对联发科天玑 9500 系列等芯片的支持。MLPerf Mobile 应用已上架 Google Play、App Store，并开放源代码。

MLPerf Training v6.0 基准结果发布：聚焦 MoE 稀疏计算

MLCommons 正式发布 MLPerf Training v6.0 基准测试结果。本次更新新增 DeepSeek V3 与 GPT-OSS 20B 两项基准，突出 Mixture-of-Experts（MoE）稀疏计算架构的行业趋势。测试结果显示提交系统数量达 95 个，涵盖 13 种加速器和 19 种主机处理器，创下多样性纪录。24 家机构参与，包括多家首次提交者，云端训练系统数量较上轮翻倍。基准强调准确率门槛下的性能对比，为 AI 训练生态提供关键洞察。

GLM4-MoE 生产优化：SGLang 实现 TTFT 加速 65%

Novita AI 基于 SGLang 为 GLM4-MoE 模型开发了一套经过生产验证的高影响力优化方案。通过端到端性能优化策略，涵盖从内核执行效率到跨节点数据传输调度等全流程瓶颈，集成 Shared Experts Fusion 与 Suffix Decoding 技术，在代理编码工作负载下实现 TTFT 最高降低 65%、TPOT 提升 22%。所有结果均在 H200 集群 TP8 与 FP8 配置下验证，为高吞吐低延迟生产环境提供了可靠蓝图。

INT4 QAT RL 实战：单 H200 部署 1TB 模型

SGLang RL 团队受 Kimi K2 启发，成功落地 INT4 Quantization-Aware Training (QAT) 端到端方案。通过训练阶段的 fake quantization 与推理阶段 W4A16 真实量化结合，实现与 BF16 全精度相当的训练-推理一致性与稳定性。INT4 极致压缩让约 1TB 规模模型单节点 rollout 成为可能，显著提升效率并消除跨节点通信瓶颈。本文详解 slime 框架下的完整技术 pipeline，包括 Megatron-LM fake quantization 改造、STE 反向传播、权重转换及 SGLang W4A16 推理，附带消融实验与多模型验证结果，为社区提供高性能低成本开源参考。

不留任何Token：Miles框架TITO原则深度解析

在智能体强化学习中，rollout并非单次生成，而是多轮模型调用、工具输出与恢复生成的链式过程。Token-In-Token-Out（TITO）原则旨在消除训练与推理间的关键不匹配，确保训练器评估的token序列与推理引擎实际产生和消费的序列完全一致。本文详细定义TITO原理，阐述其对训练效率与策略正确性的重要性，并分析三种常见破坏场景，最后介绍Miles框架如何通过推理会话服务器、追加-only机制与固定模板实现TITO。