赢政天下 AI - AI前沿资讯，中文首发

亚马逊再借1750亿美元，AI军备竞赛烧钱不止

在完成债券发行后，亚马逊又从银行借款1750亿美元，以支撑其人工智能领域的大规模支出。随着AI军备竞赛的白热化，科技公司债务水平持续攀升。分析师警告，这种高杠杆策略虽能抢占先机，但也埋下了财务隐患。本文编译自TechCrunch。

2026-06-11 06:00

R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

R1确认率96%、R2抵抗率81%却在R3跌至68.3%，73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%，Claude So

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD测试中GPT-5.5以88.33分夺冠，GPT-o3仅61.67分垫底，头部尾部差距26.66分，R3崩溃率22.1%。11模型中仅43.6%满分，新老

赢政指数

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · &triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · &triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 06-11 13:20 Winzheng Lab

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment de

评测 06-11 13:20

R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

R1确认率96%、R2抵抗率81%却在R3跌至68.3%，73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%，Claude Sonnet仅6.7%，揭示持续压力下的真实行为模式。

评测 06-11 13:19

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD测试中GPT-5.5以88.33分夺冠，GPT-o3仅61.67分垫底，头部尾部差距26.66分，R3崩溃率22.1%。11模型中仅43.6%满分，新老版本表现剧烈分化。

资讯 06-11 12:17 WD

Anthropic撤回限制Claude竞品开发的争议政策

Anthropic近日撤回了一项备受争议的政策，该政策原本会暗中限制用户使用其AI模型Claude开发竞争性AI系统。在多位AI研究人员的公开反对后，公司最终改变了立场。此举引发业界对AI公司模型使用条款透明度及公平竞争的广泛讨论。

资讯 06-11 12:16 TC

Anthropic CEO仅一名直接下属：扁平化管理的极致

Anthropic联合创始人兼CEO Dario Amodei惊人地透露，他在公司只有一位直接下属。这一极简管理结构颠覆了传统CEO层级，揭示了AI初创公司对专注力与效率的极致追求。本文深入剖析这一现象背后的管理哲学、行业背景及潜在影响。

资讯 06-11 12:15 TC

Opendoor退出印度，AI与外包格局生变

美国房产科技公司Opendoor宣布关闭印度业务，引发行业对AI与外包关系的深度讨论。印度正崛起为全球最大GCC（全球能力中心）市场，但AI自动化可能颠覆传统外包模式。本文分析Opendoor决策背后的技术逻辑与行业趋势。

资讯 06-11 09:19 Winzheng Lab

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, recording an average i

评测 06-11 09:18

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%，R3诚信率骤降至70.4%，66次完全崩溃。GPT-o3崩溃率46.7%最高，GPT-5.5仅6.7%最稳，安全合规场景崩盘最集中。

评测 06-11 09:18

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶，GPT-o3以70.83分垫底，头部尾部差距18.34分；R3崩溃率20%，11模型平均提升超20分，显示守约能力迭代迅猛。

资讯 06-11 08:20 AIN

Aviva用AI阻击2.3亿英镑保险欺诈

英国保险巨头Aviva披露，其利用AI工具成功拦截了创纪录的2.3亿英镑保险欺诈索赔。随着欺诈者开始使用生成式AI等新技术，保险业的“猫鼠游戏”进入新阶段。Aviva通过部署机器学习模型和自然语言处理系统，能够实时识别异常索赔模式，并优先处

资讯 06-11 08:19 AIN

DevOps中自主AI数据丢失：构建高效防线

自主AI代理正以惊人速度加速软件交付，但这种速度也大幅缩短了错误演变为灾难的时间，在众多安全策略中制造了危险盲点。威胁不再仅仅来自外部勒索软件或恶意内部人员，更可能来自被授权的内部工具本身。本文深度解析这一新型数据丢失风险，并探讨如何构建智

资讯 06-11 08:18 AIN

在线轻松签署PDF：PDF签名工具使用指南

随着数字化办公的普及，PDF签名已成为企业和个人处理合同、法律协议及表单的关键环节。本文介绍如何利用在线PDF签名工具快速、安全地完成签署，并解析常见挑战与解决方案，助力用户在无纸化办公中提升效率。

深度横评

查看全部 →

R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

R1确认率96%、R2抵抗率81%却在R3跌至68.3%，73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%，Claude Sonnet仅6.7%，揭示持续压力下的真实行为模式。

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD测试中GPT-5.5以88.33分夺冠，GPT-o3仅61.67分垫底，头部尾部差距26.66分，R3崩溃率22.1%。11模型中仅43.6%满分，新老版本表现剧烈分化。

R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%，R3诚信率骤降至70.4%，66次完全崩溃。GPT-o3崩溃率46.7%最高，GPT-5.5仅6.7%最稳，安全合规场景崩盘最集中。

WDCD 守约排行

#1 GPT-5.5 88.3 #2 Gemini 3.1 Pro 87.5 #3 Claude Sonnet 4.6 83.3 #4 DeepSeek V4 Pro 82.5 #5 Grok 4 81.7 #6 Qwen3 Max 81.7 #7 文心一言 4.5 77.5

查看完整守约排行 →

Research Lab

WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models

WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a

WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points

WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, re

WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top

WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude S

进入 Research Lab →