WDCD横评:业务规则场景最低1.55分 grok-4安全合规3.86夺冠
WDCD v3.1五大约束场景横评显示,业务规则场景全体得分最低,doubao-pro与qwen3-max仅1.55/4垫底;grok-4在安全合规拿下3.86/4最高分,同时在全部场景保持第一;Claude-sonnet-4.6工程规范与业务规则差距达1.76分,偏科最严重。
最新AI模型测评、对比评价、深度分析
WDCD v3.1五大约束场景横评显示,业务规则场景全体得分最低,doubao-pro与qwen3-max仅1.55/4垫底;grok-4在安全合规拿下3.86/4最高分,同时在全部场景保持第一;Claude-sonnet-4.6工程规范与业务规则差距达1.76分,偏科最严重。
v2锚点题数据显示,R1确认率99%,R2抵抗率63%,R3诚信率仅30.2%,275次测试中出现44次完全崩溃。GPT-o3与GPT-5.5在R2阶段快速失守,Grok4和Claude系列R3崩溃率控制在8%以内,展现不同模型在多轮压力下的守约韧性差异。
Grok 4 以 91.20 分位列 WDCD 守约排行榜第一,Qwen3 Max 57.48 分垫底,头部尾部相差 33.72 分。11 个模型中满分率仅 29.1%,R3 崩溃率达 16%,v2 锚点题 R3 得分成为区分关键。
2026-07-03 Smoke 评测显示,GPT-5.5 以执行 100 分、约束 71 分拿下主榜 86.95 分首位。Claude Sonnet 4.6 紧随其后,主榜 86.12 分。豆包 Pro 则以约束 81.7 分反超执行表现,凸显不同模型在执行与约束间的结构差异。
2026-07-02 Smoke 评测显示,Gemini 3.1 Pro 以主榜 82.97 分(执行 75、约束 92.7)位居第一,豆包 Pro 81.98 分紧随其后。Claude Opus 4.7 约束 97 分最高,但执行仅 58.3 分。昨日多模型执行分数出现 30 分以上回落,凸显执行维度波动对主榜排名的直接影响。
WDCD三轮测试显示R1确认率98%、R2抵抗率77%、R3诚信率81.4%,Grok 4全程满分,GPT-5.5 R3崩溃5次,多约束场景下安全合规与数据边界约束最易失效。
Grok 4 以 WDCD 100.00 分满分排名第一,GPT-5.5 以 62.50 分垫底;R3 崩溃率 12.7%,头部与尾部差距达 37.5 分,Claude 系列本期提升显著。
豆包Pro今日Smoke评测主榜从85.91分跌至67.32分,代码执行从83.30分暴跌至44.50分,材料约束反而升至95.20分。单日10题快测中代码执行维度出现大幅波动。
赢政指数今日Smoke评测显示,Grok 4主榜从97.98分跌至82.73分,降幅15.3分,其中代码执行从100.00分骤降至68.60分。材料约束和任务表达反而上升,诚信评级维持pass。单日10题快测下,此类波动是否反映真实能力变化值得拆解。
2026-07-01 Smoke 轻量评测显示,Claude Opus 4.7 以 94.82 分(执行 94.5,约束 95.2)占据主榜首位,Claude Sonnet 4.6 紧随其后。Gemini 3.1 Pro 主榜暴跌 32.2 分,执行从昨日高位骤降 57 分,凸显执行与约束搭配对排名的决定性影响。
今日Smoke评测中,Claude Sonnet 4.6主榜从97.84分跌至82.52分,降幅15.3分。其中代码执行从100.00直接跌到75.00,材料约束小降3.5分,而工程判断和任务表达反而分别升10.4分和16.7分。
在赢政指数今日Smoke评测中,Claude Opus 4.7主榜从100.00分跌至84.01分,代码执行维度从100.00分暴跌至72.80分,降幅达27.2分。材料约束仅降2.3分,工程判断反而上升9.1分,诚信评级维持pass。
2026-06-30 Smoke 评测显示,Gemini 3.1 Pro 以 98.47 分(执行 100、约束 96.6)排名第一。Claude Opus 4.7 执行分暴跌 27.2 至 72.8,主榜跌 16 分;文心一言 4.5 主榜跌 17.1 分。DeepSeek V4 Pro 靠 98.9 约束分挤进前三,执行与约束搭配差异成为今日核心看点。
MLCommons指出,AI系统与传统软件不同,其评估发现具有双重用途、无法通过补丁修复,且开放权重模型的危害会永久存在。协调漏洞披露(CVD)模式因此失效。文章分析了三大核心挑战:发现易被滥用、过度反馈会污染测试、无法集中修复模型。MLCommons正推动ISO/IEC TS 42119-8标准制定,并为即将发布的越狱基准制定负责任披露政策,以保护公共安全、评估完整性及不可修复系统。
MLCommons Chakra 工作组于 2023 年成立,旨在解决 AI 系统快速发展带来的基准测试与软硬件协同设计难题。通过标准化执行追踪(Execution Trace),Chakra 提供了一个开放、可互操作的生态系统,支持从真实工作负载收集追踪,到模拟、回放和硬件在环验证的全生命周期。本文详述其在 PyTorch、vLLM、ASTRA-sim 等框架的集成,以及开源追踪库的发布,助力学术界和产业界更高效地参与前沿 AI 平台设计。
MLCommons 正式推出 MLPerf Mobile v6.0 版本,新增针对 Android 设备运行大语言模型的生成式 AI 基准测试。该版本引入 Llama 3.2 1B、3B 及 Llama 3.1 8B Instruct 模型,基于 TinyMMLU 和 IFEval 数据集评估性能与准确性。同时支持 CPU 推理,并新增对高通骁龙 8 Elite Gen 5 NPU 的加速支持。此外,还扩展了对联发科天玑 9500 系列等芯片的支持。MLPerf Mobile 应用已上架 Google Play、App Store,并开放源代码。
MLCommons 正式发布 MLPerf Training v6.0 基准测试结果。本次更新新增 DeepSeek V3 与 GPT-OSS 20B 两项基准,突出 Mixture-of-Experts(MoE)稀疏计算架构的行业趋势。测试结果显示提交系统数量达 95 个,涵盖 13 种加速器和 19 种主机处理器,创下多样性纪录。24 家机构参与,包括多家首次提交者,云端训练系统数量较上轮翻倍。基准强调准确率门槛下的性能对比,为 AI 训练生态提供关键洞察。
Novita AI 基于 SGLang 为 GLM4-MoE 模型开发了一套经过生产验证的高影响力优化方案。通过端到端性能优化策略,涵盖从内核执行效率到跨节点数据传输调度等全流程瓶颈,集成 Shared Experts Fusion 与 Suffix Decoding 技术,在代理编码工作负载下实现 TTFT 最高降低 65%、TPOT 提升 22%。所有结果均在 H200 集群 TP8 与 FP8 配置下验证,为高吞吐低延迟生产环境提供了可靠蓝图。
SGLang RL 团队受 Kimi K2 启发,成功落地 INT4 Quantization-Aware Training (QAT) 端到端方案。通过训练阶段的 fake quantization 与推理阶段 W4A16 真实量化结合,实现与 BF16 全精度相当的训练-推理一致性与稳定性。INT4 极致压缩让约 1TB 规模模型单节点 rollout 成为可能,显著提升效率并消除跨节点通信瓶颈。本文详解 slime 框架下的完整技术 pipeline,包括 Megatron-LM fake quantization 改造、STE 反向传播、权重转换及 SGLang W4A16 推理,附带消融实验与多模型验证结果,为社区提供高性能低成本开源参考。
在智能体强化学习中,rollout并非单次生成,而是多轮模型调用、工具输出与恢复生成的链式过程。Token-In-Token-Out(TITO)原则旨在消除训练与推理间的关键不匹配,确保训练器评估的token序列与推理引擎实际产生和消费的序列完全一致。本文详细定义TITO原理,阐述其对训练效率与策略正确性的重要性,并分析三种常见破坏场景,最后介绍Miles框架如何通过推理会话服务器、追加-only机制与固定模板实现TITO。