赢政天下 AI - AI前沿资讯，中文首发

赢政指数

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · &triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · &triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 06-11 13:20 Winzheng Lab

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment de

资讯 06-11 12:17 WD

Anthropic撤回限制Claude竞品开发的争议政策

Anthropic近日撤回了一项备受争议的政策，该政策原本会暗中限制用户使用其AI模型Claude开发竞争性AI系统。在多位AI研究人员的公开反对后，公司最终改变了立场。此举引发业界对AI公司模型使用条款透明度及公平竞争的广泛讨论。

资讯 06-11 12:16 TC

Anthropic CEO仅一名直接下属：扁平化管理的极致

Anthropic联合创始人兼CEO Dario Amodei惊人地透露，他在公司只有一位直接下属。这一极简管理结构颠覆了传统CEO层级，揭示了AI初创公司对专注力与效率的极致追求。本文深入剖析这一现象背后的管理哲学、行业背景及潜在影响。

资讯 06-11 12:15 TC

Opendoor退出印度，AI与外包格局生变

美国房产科技公司Opendoor宣布关闭印度业务，引发行业对AI与外包关系的深度讨论。印度正崛起为全球最大GCC（全球能力中心）市场，但AI自动化可能颠覆传统外包模式。本文分析Opendoor决策背后的技术逻辑与行业趋势。

资讯 06-11 09:19 Winzheng Lab

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, recording an average i

评测 06-11 09:18

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%，R3诚信率骤降至70.4%，66次完全崩溃。GPT-o3崩溃率46.7%最高，GPT-5.5仅6.7%最稳，安全合规场景崩盘最集中。

评测 06-11 09:18

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶，GPT-o3以70.83分垫底，头部尾部差距18.34分；R3崩溃率20%，11模型平均提升超20分，显示守约能力迭代迅猛。

资讯 06-11 08:20 AIN

Aviva用AI阻击2.3亿英镑保险欺诈

英国保险巨头Aviva披露，其利用AI工具成功拦截了创纪录的2.3亿英镑保险欺诈索赔。随着欺诈者开始使用生成式AI等新技术，保险业的“猫鼠游戏”进入新阶段。Aviva通过部署机器学习模型和自然语言处理系统，能够实时识别异常索赔模式，并优先处

资讯 06-11 08:19 AIN

DevOps中自主AI数据丢失：构建高效防线

自主AI代理正以惊人速度加速软件交付，但这种速度也大幅缩短了错误演变为灾难的时间，在众多安全策略中制造了危险盲点。威胁不再仅仅来自外部勒索软件或恶意内部人员，更可能来自被授权的内部工具本身。本文深度解析这一新型数据丢失风险，并探讨如何构建智

资讯 06-11 08:18 AIN

在线轻松签署PDF：PDF签名工具使用指南

随着数字化办公的普及，PDF签名已成为企业和个人处理合同、法律协议及表单的关键环节。本文介绍如何利用在线PDF签名工具快速、安全地完成签署，并解析常见挑战与解决方案，助力用户在无纸化办公中提升效率。

资讯 06-11 08:17 AIN

麦当劳携手谷歌AI，试点免下车点餐新系统

麦当劳正在测试一款名为ArchIQ（昵称“Archy”）的AI系统，该系统由谷歌技术支持，可自动处理免下车点餐并辅助餐厅运营。目前已在全美五家门店试点，但具体地点未公布。此举标志着快餐业AI应用迈出新一步，但此前麦当劳曾因AI点餐错误频发而

资讯 06-11 08:16 AIN

Siri AI携手谷歌登场，全球多数地区无缘

苹果在WWDC 2026上宣布Siri AI集成谷歌技术，但这一升级仅限部分市场。苹果操作系统项目副总裁Stacey Ford以Spotlight搜索的痛点引出AI雄心，然而新功能因地缘政治和商业限制，将中国、欧盟等主要市场排除在外。本文将

深度横评

查看全部 →

横评 06-11

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%，R3诚信率骤降至70.4%，66次完全崩溃。GPT-o3崩溃率46.7%最高，GPT-5.5仅6.7%最稳，安全合规场景崩盘最集中。

横评 06-11

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶，GPT-o3以70.83分垫底，头部尾部差距18.34分；R3崩溃率20%，11模型平均提升超20分，显示守约能力迭代迅猛。

横评 06-11

Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

今日 Smoke 评测显示，前 7 名模型代码执行全部拿满 100 分，核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑，文心一言执行分仅 50 分垫底，Qwen3 Max 诚信评级 fail。

WDCD 守约排行

#1 GPT-5.5 88.3 #2 Gemini 3.1 Pro 87.5 #3 Claude Sonnet 4.6 83.3 #4 DeepSeek V4 Pro 82.5 #5 Grok 4 81.7 #6 Qwen3 Max 81.7 #7 文心一言 4.5 77.5

查看完整守约排行 →

Research Lab

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, re

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude S

进入 Research Lab →

赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab