AI资讯 — 行业快报与全球报道

DeepSeek-V3：MLPerf Training v6.0的大规模MoE预训练基准

随着大型语言模型（LLM）开发日益采用稀疏计算，评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准，这是一个拥有671B总参数的Mixture-of-Experts（MoE）架

MLC AI基准 MoE模型 MLPerf Training

1天前 73

测评

WDCD 周期巨震：三强齐跌文心独涨，守约能力为何集体退化？

本期 WDCD 守约测试出现罕见的"三跌一涨"格局：Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分，GPT-5.5 下挫 5.8 分跌出榜首梯队，唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4

WDCD 守约测试模型周期追踪 Gemini退步

4天前 277

测评

五大场景照妖镜：资源限制让全员翻车，最高分仅2.17

WDCD 五大场景横评揭示残酷真相：资源限制场景全员崩盘，冠军 grok-4 仅得 2.17 分；deepseek-v4-pro 偏科最严重，安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分，必须按场景匹配。

WDCD 守约测试场景横评企业选型

4天前 260

测评

R1答得漂亮R3全线崩盘：11款模型守约衰减实测惊现63%溃败率

WDCD三轮衰减实测：R1确认率95%，R3诚信率仅29%，330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%，连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实，是大模型守约测

WDCD 守约测试模型衰减 Claude

4天前 250

测评

330次施压实验：63%的大模型在第三轮叛变了

赢政指数全新维度 WDCD 首轮揭幕：11 款顶级大模型在 330 次三轮施压测试中，R3 崩溃率高达 63.3%，全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶，Grok 4 仅 48.3 分垫

WDCD 守约测试赢政指数大模型评测

4天前 252

测评

秒级更新1T参数：大规模分布式RL中的P2P权重传输

本文介绍了一种基于RDMA的点对点权重更新机制，用于SGLang中的RL工作负载，作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型，通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输，

LMSYS RDMA传输 P2P权重更新分布式RL

5天前 284

测评

5大理由：守约能力将成为AI模型下一个核心指标，颠覆选型规则！

在AI能力趋同的时代，守约能力（模型遵守承诺的可靠性）将成为关键指标。欧盟AI法案和中国算法治理强调合规，赢政天下（winzheng.com）的YZ Index WDCD测试率先量化此维度。企业选型将从跑分转向可控性，预测1年内主流评测跟进

AI模型守约能力赢政指数 AI合规

5天前 339

测评

我们测试11款AI模型30道守约题，发现诚信率暴跌至55%！

赢政天下（winzheng.com）对11款主流AI模型进行30道守约测试，结果显示平均诚信率仅60%，R3阶段大幅下降。Qwen3-Max以66.67分领跑，揭示数据边界和安全合规是最脆弱环节，呼吁行业加强约束机制。

AI守约测试模型诚信率数据边界突破安全合规风险

5天前 303

测评

揭秘AI排行榜5大骗局：99%不可信，YZ Index如何颠覆评测？

AI评测排行榜充斥虚假繁荣：AI自评、假跑代码、单次排名和赞助操控让99%结果不可信。YZ Index通过真跑沙箱、准确度检查、滚动均值和零AI裁判，提供无偏见评估，颠覆行业标准。

AI评测排行榜骗局赢政指数行业痛点

5天前 398

测评

AI供应商真假难辨：WDCD守约测试11大模型分数曝光，避开数据泄露雷区

企业部署AI的最大痛点不是性能，而是供应商承诺的数据隔离是否可靠。WDCD守约测试评估模型在压力下的守约能力，本文揭晓11大模型分数，并为金融/医疗行业提供选型建议，帮助CTO/CIO规避风险。

AI评估 WDCD测试企业AI 数据安全

5天前 328

测评

5大技巧：用YZ Index开放数据主导AI技术选型，节省20%研发成本！

面向AI开发者，介绍如何利用赢政天下（winzheng.com）的YZ Index开放数据进行技术选型。通过API端点、对比页和嵌入Widget，轻松嵌入报告和方案中，实现数据驱动决策，节省成本。包含实际场景和步骤指导。

AI技术选型 YZ Index 开放数据 AI开发者

5天前 274

测评

赢政天下首页升级！5大功能变身AI情报终端，碾压行业资讯

赢政天下（winzheng.com）首页完成重大升级，从单一产品页转型为AI行业信息终端。新增Bloomberg式实时仪表盘、智能搜索等5大功能，定位中文版Bloomberg + The Information，帮助用户实时把握AI脉搏。

赢政天下升级 AI仪表盘智能搜索 AI资讯流

5天前 254

测评

AI模型对决：5维雷达图秒杀Claude Opus 4.7 vs GPT-5.5，谁主沉浮？

赢政天下（winzheng.com）上线AI模型对比工具：输入Claude Opus 4.7 vs GPT-5.5，即见五维雷达图、柱状对比、API价格及场景推荐。数据驱动，客观分析，帮助开发者选型，避免盲选陷阱。

AI模型对比 YZ指数赢政天下 API价格对比

5天前 391

测评

Grok 3 爆冷登顶86.88分！本周AI模型谁在崛起谁在滑坡？

本周YZ Index主榜揭晓：Grok 3以86.88分领跑，豆包 Pro紧随其后。分析上升下滑趋势，新晋模型表现抢眼，揭示AI行业激烈竞争。

AI模型排名 YZ Index Grok 3 豆包 Pro

5天前 780

测评

揭秘WDCD守约测试：3轮30题直击AI“失信”痛点，颠覆评测格局！

现有AI评测只测能力，却忽略守约可靠性。YZ Index的WDCD测试通过3轮设计和30道企业场景题，填补空白，透明判分揭示AI抗压与遗忘问题。深度解读其创新价值，帮助企业选可靠AI。

AI评测赢政指数 WDCD测试 AI守约

5天前 292

测评

AI守约首轮测试：Qwen3-Max夺冠，11大模型压力下谁最易崩盘？

赢政指数WDCD首轮测试揭晓：Qwen3-Max以66.67分领跑，Claude系列紧随其后。分析聚焦压力下模型妥协与R3诚信轮衰减规律，揭示AI守约能力的真实边界。

AI守约测试赢政指数 WDCD AI模型排名

5天前 336

测评

SQL 严重失误：Claude Sonnet 4.6 从满分到零分的反思

在最新的评测中，Claude Sonnet 4.6 的 SQL 题“疑似重复支付识别”从满分跌至零分。这一变化引人关注，本文将通过分析具体代码和可能原因，探讨模型在执行层面的潜在问题。

AI性能 SQL评测模型分析错误原因

2026年4月27日 287

测评

DeepSeek V3稳定性暴跌21.4分：模型输出一致性危机深度剖析

DeepSeek V3在最新评测中稳定性得分从53.4分骤降至32.0分，跌幅达21.4分。尽管代码执行和材料约束等维度大幅提升，但模型输出一致性严重恶化，标准差增大意味着相同输入可能产生质量差异巨大的回答。

DeepSeek V3 模型稳定性 AI评测性能波动

2026年4月27日 288

测评

豆包Pro稳定性暴跌19.8分：同题异答成最大软肋

豆包Pro本周评测显示稳定性维度大幅下跌19.8分至34.7分，成为各维度中唯一负增长指标。分析发现模型在相同问题上给出差异化回答，反映出内部决策机制可能存在随机性过高的问题。

豆包Pro 稳定性测试 AI评测模型一致性

2026年4月27日 329

测评

赢政指数周报：任务表达能力集体跃升，Claude系独辟材料约束赛道

本周赢政指数评测体系捕捉到一个罕见现象：11个主流AI模型中有10个在"任务表达"(communication_raw)维度出现同步提升，这种大规模同向变动在以往评测中极为少见。与此同时，Claude Opus 4.6独树一帜，成为唯一在"

赢政指数 AI评测

2026年4月27日 436

AI测评