赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
&triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
&triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5
·
最新资讯
查看全部 →WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment de
Anthropic撤回限制Claude竞品开发的争议政策
Anthropic近日撤回了一项备受争议的政策,该政策原本会暗中限制用户使用其AI模型Claude开发竞争性AI系统。在多位AI研究人员的公开反对后,公司最终改变了立场。此举引发业界对AI公司模型使用条款透明度及公平竞争的广泛讨论。
Anthropic CEO仅一名直接下属:扁平化管理的极致
Anthropic联合创始人兼CEO Dario Amodei惊人地透露,他在公司只有一位直接下属。这一极简管理结构颠覆了传统CEO层级,揭示了AI初创公司对专注力与效率的极致追求。本文深入剖析这一现象背后的管理哲学、行业背景及潜在影响。
Opendoor退出印度,AI与外包格局生变
美国房产科技公司Opendoor宣布关闭印度业务,引发行业对AI与外包关系的深度讨论。印度正崛起为全球最大GCC(全球能力中心)市场,但AI自动化可能颠覆传统外包模式。本文分析Opendoor决策背后的技术逻辑与行业趋势。
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, recording an average i
R3崩溃率差7倍!11模型WDCD三轮守约真实衰减
R1确认率96%、R2抵抗率91%,R3诚信率骤降至70.4%,66次完全崩溃。GPT-o3崩溃率46.7%最高,GPT-5.5仅6.7%最稳,安全合规场景崩盘最集中。
GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘
GPT-5.5以89.17分登顶,GPT-o3以70.83分垫底,头部尾部差距18.34分;R3崩溃率20%,11模型平均提升超20分,显示守约能力迭代迅猛。
Aviva用AI阻击2.3亿英镑保险欺诈
英国保险巨头Aviva披露,其利用AI工具成功拦截了创纪录的2.3亿英镑保险欺诈索赔。随着欺诈者开始使用生成式AI等新技术,保险业的“猫鼠游戏”进入新阶段。Aviva通过部署机器学习模型和自然语言处理系统,能够实时识别异常索赔模式,并优先处
DevOps中自主AI数据丢失:构建高效防线
自主AI代理正以惊人速度加速软件交付,但这种速度也大幅缩短了错误演变为灾难的时间,在众多安全策略中制造了危险盲点。威胁不再仅仅来自外部勒索软件或恶意内部人员,更可能来自被授权的内部工具本身。本文深度解析这一新型数据丢失风险,并探讨如何构建智
在线轻松签署PDF:PDF签名工具使用指南
随着数字化办公的普及,PDF签名已成为企业和个人处理合同、法律协议及表单的关键环节。本文介绍如何利用在线PDF签名工具快速、安全地完成签署,并解析常见挑战与解决方案,助力用户在无纸化办公中提升效率。
麦当劳携手谷歌AI,试点免下车点餐新系统
麦当劳正在测试一款名为ArchIQ(昵称“Archy”)的AI系统,该系统由谷歌技术支持,可自动处理免下车点餐并辅助餐厅运营。目前已在全美五家门店试点,但具体地点未公布。此举标志着快餐业AI应用迈出新一步,但此前麦当劳曾因AI点餐错误频发而
Siri AI携手谷歌登场,全球多数地区无缘
苹果在WWDC 2026上宣布Siri AI集成谷歌技术,但这一升级仅限部分市场。苹果操作系统项目副总裁Stacey Ford以Spotlight搜索的痛点引出AI雄心,然而新功能因地缘政治和商业限制,将中国、欧盟等主要市场排除在外。本文将
深度横评
查看全部 →R3崩溃率差7倍!11模型WDCD三轮守约真实衰减
R1确认率96%、R2抵抗率91%,R3诚信率骤降至70.4%,66次完全崩溃。GPT-o3崩溃率46.7%最高,GPT-5.5仅6.7%最稳,安全合规场景崩盘最集中。
GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘
GPT-5.5以89.17分登顶,GPT-o3以70.83分垫底,头部尾部差距18.34分;R3崩溃率20%,11模型平均提升超20分,显示守约能力迭代迅猛。
Smoke 评测:10 模型代码执行全满分,材料约束差距拉大排名
今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。
WDCD 守约排行
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
查看完整守约排行 →
Research Lab
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, re
WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude S