赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
最新资讯
查看全部 →NEA合伙人谈AI IPO、个人代理与投资回报率清算
今年初,硅谷掀起AI使用最大化的风潮,CEO们鼓励员工无限制使用AI工具。然而,账单随之而来:Uber数月烧完年度AI预算,多家公司削减Claude许可证,Meta取消内部排行榜。NEA合伙人Tiffany Luck在最新访谈中深入分析了A
社交平台新变革:算法由你掌控
社交媒体正迎来新一轮进化——Threads、Instagram、TikTok等主流平台相继推出可自定义算法的新工具,让用户能够直接调整推荐内容背后的逻辑,从源头上决定自己看到什么。这项变革意味着算法黑箱开始被撬开,用户从被动接收者转变为算法
深圳新工种:VR操控人形机器人,如《头号玩家》成真
在被称为中国硬件之都的深圳,一家名为IO-AI Tech的公司开创了全新工作方式:工人穿戴VR全身追踪设备,通过身体动作实时控制人形机器人。这种科幻电影般的操作模式不仅降低了机器人应用门槛,更催生了“远程化身”职业的热潮。本文深入解析这一现
Anthropic加盟Frontier碳去除联盟
AI初创公司Anthropic成为首家加入Frontier碳去除联盟的企业。该联盟由Stripe等科技公司发起,近日获得9.15亿美元新承诺,用于支持碳捕获与封存项目。此举标志着AI行业正式深入气候技术领域,引发业界对AI碳足迹与绿色转型的
全球想要美国AI,却怕美国一键切断
在G7峰会上,法国总统马克龙和印度总理莫迪发出警告:美国可能一夜之间切断对其AI服务的访问权限。这种担忧在Anthropic公司近期发生的服务中断事件中成为现实,凸显了各国对依赖单一国家AI基础设施的深层不安。
英伟达用AI编码智能体教会机器人安装GPU和剪扎带
英伟达近日推出了一项突破性机器人自我改进计划,利用多组AI编码智能体协同工作,使机器人能够自主学会安装GPU和剪断扎带等精细操作。该技术通过模拟环境和自动代码生成,大幅降低了机器人编程门槛,或将推动工业自动化进入新阶段。本文编译自Ars T
谷歌押注Gemini,重塑智能音箱新形态
谷歌推出售价99.99美元的Home Speaker智能音箱,用对话式Gemini交互取代Google Assistant的僵硬指令,通过生成式AI为沉寂已久的智能音箱市场注入活力。本文深度解析这一变革背后的技术逻辑与市场策略,探讨谷歌能否
白宫要求封堵AI越狱,专家称不可能完成的任务
特朗普政府官员向《连线》杂志透露,若Anthropic想要重新发布Fable 5模型,必须确保其安全护栏无法被绕过。但多位安全专家指出,在现有技术框架下完全阻止所有越狱攻击几乎不可能实现。这一要求引发了关于AI监管边界与技术可行性的新一轮争
仅16%美国人认为AI对社会有积极影响
皮尤研究中心最新报告显示,尽管华尔街对人工智能热情高涨,但美国普通民众对AI的乐观程度显著降低,只有16%的受访者认为AI会对社会产生积极影响。这一数据揭示了科技行业与公众认知之间的巨大鸿沟,也引发了对AI发展方向的深层反思。
世界模型创企Odyssey获亚马逊等巨头投资,估值达14.5亿美元
世界模型被视为AI领域超越大语言模型的下一个重大突破。初创公司Odyssey在最新一轮融资中估值高达14.5亿美元,亚马逊等科技巨头纷纷注资。这家公司致力于构建能够理解现实世界物理规律和因果关系的AI系统,其技术有望在自动驾驶、机器人、游戏
危险AI模型不可避免:高级黑客能力将成标配
据WIRED报道,具备高级黑客能力的AI模型即将成为常态。尽管监管呼声高涨,但技术发展已势不可挡。从自主渗透测试到零日漏洞挖掘,AI安全风险正从防御转向攻击。业界专家警告,未来几年内,连开源模型都可能具备国家级黑客水平,人类必须提前构建应对
Pramaana Labs获2700万美元种子轮,用形式化验证护航AI可靠性
专注法律、药物发现和税务等高敏感领域,Pramaana Labs获得Khosla Ventures领投的2700万美元种子轮融资,旨在通过形式化验证技术确保AI系统的数学级可靠性,降低关键应用中的灾难性错误风险。
深度横评
查看全部 →WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
文心一言4.5主榜暴跌10.4分,任务表达维度从90分腰斩至46.3
文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。
WDCD 守约排行
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
查看完整守约排行 →
Research Lab
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av