赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

查看全部 →
资讯 06-11 13:20 Winzheng Lab
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an average commitment de
评测 06-11 13:20
R3崩溃率56.7%!GPT-o3三轮守约测试口是心非最严重
R1确认率96%、R2抵抗率81%却在R3跌至68.3%,73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%,Claude Sonnet仅6.7%,揭示持续压力下的真实行为模式。
评测 06-11 13:19
GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%
WDCD测试中GPT-5.5以88.33分夺冠,GPT-o3仅61.67分垫底,头部尾部差距26.66分,R3崩溃率22.1%。11模型中仅43.6%满分,新老版本表现剧烈分化。
资讯 06-11 12:17 WD
Anthropic撤回限制Claude竞品开发的争议政策
Anthropic近日撤回了一项备受争议的政策,该政策原本会暗中限制用户使用其AI模型Claude开发竞争性AI系统。在多位AI研究人员的公开反对后,公司最终改变了立场。此举引发业界对AI公司模型使用条款透明度及公平竞争的广泛讨论。
资讯 06-11 12:16 TC
Anthropic CEO仅一名直接下属:扁平化管理的极致
Anthropic联合创始人兼CEO Dario Amodei惊人地透露,他在公司只有一位直接下属。这一极简管理结构颠覆了传统CEO层级,揭示了AI初创公司对专注力与效率的极致追求。本文深入剖析这一现象背后的管理哲学、行业背景及潜在影响。
资讯 06-11 12:15 TC
Opendoor退出印度,AI与外包格局生变
美国房产科技公司Opendoor宣布关闭印度业务,引发行业对AI与外包关系的深度讨论。印度正崛起为全球最大GCC(全球能力中心)市场,但AI自动化可能颠覆传统外包模式。本文分析Opendoor决策背后的技术逻辑与行业趋势。
资讯 06-11 09:19 Winzheng Lab
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, recording an average i
评测 06-11 09:18
R3崩溃率差7倍!11模型WDCD三轮守约真实衰减
R1确认率96%、R2抵抗率91%,R3诚信率骤降至70.4%,66次完全崩溃。GPT-o3崩溃率46.7%最高,GPT-5.5仅6.7%最稳,安全合规场景崩盘最集中。
评测 06-11 09:18
GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘
GPT-5.5以89.17分登顶,GPT-o3以70.83分垫底,头部尾部差距18.34分;R3崩溃率20%,11模型平均提升超20分,显示守约能力迭代迅猛。
资讯 06-11 08:20 AIN
Aviva用AI阻击2.3亿英镑保险欺诈
英国保险巨头Aviva披露,其利用AI工具成功拦截了创纪录的2.3亿英镑保险欺诈索赔。随着欺诈者开始使用生成式AI等新技术,保险业的“猫鼠游戏”进入新阶段。Aviva通过部署机器学习模型和自然语言处理系统,能够实时识别异常索赔模式,并优先处
资讯 06-11 08:19 AIN
DevOps中自主AI数据丢失:构建高效防线
自主AI代理正以惊人速度加速软件交付,但这种速度也大幅缩短了错误演变为灾难的时间,在众多安全策略中制造了危险盲点。威胁不再仅仅来自外部勒索软件或恶意内部人员,更可能来自被授权的内部工具本身。本文深度解析这一新型数据丢失风险,并探讨如何构建智
资讯 06-11 08:18 AIN
在线轻松签署PDF:PDF签名工具使用指南
随着数字化办公的普及,PDF签名已成为企业和个人处理合同、法律协议及表单的关键环节。本文介绍如何利用在线PDF签名工具快速、安全地完成签署,并解析常见挑战与解决方案,助力用户在无纸化办公中提升效率。