赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
&triangleup; Qwen3 Max +66.5 · ▿ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
&triangleup; Qwen3 Max +66.5 · ▿ DeepSeek V3 -75.1
·
最新资讯
查看全部 →AI的“算力账单”到期:行业急寻成本控制之道
随着大模型规模激增,AI行业的token消耗和算力支出已失控。业内风向从“参数至上”转向“成本治理”——模型压缩、推理优化、专用芯片等策略成为新焦点。本文深度解析这场成本危机背后的驱动因素与应对路径。
微软再失魔力?AI产品遇冷堪忧
微软的AI产品近期销售不振,GitHub也频频陷入麻烦。WIRED专访副总裁Scott Hanselman,探究这家科技巨头是否又一次陷入了追赶模式。本文深入分析微软AI战略的当前困境、背后原因及未来走向。
Fitbit Air智能手环:被话痨AI教练拖累的好设备
Fitbit Air 作为一款极简、可靠的健身追踪器表现出色,但谷歌强行植入的 AI Health Coach(健康教练)功能却显得多余且令人分心。本文深入评测该设备的设计、功能与AI辅助的实际体验,探讨可穿戴设备是否真的需要一位喋喋不休的
AI黑客攻破Meta客服,聊天机器人重塑大脑认知
本周科技界迎来两则重磅消息:黑客利用Meta的AI客服代理成功窃取Instagram账户,暴露了AI安全领域的深层次漏洞;与此同时,最新研究表明长期与聊天机器人交互可能改变人类大脑的注意力和思维模式。本文编译自MIT Technology
澳洲数据中心巨头投300亿美元印度建AI数据中心
澳大利亚数据中心运营商AirTrunk宣布将在印度投资300亿美元,建设总容量达5GW的AI数据中心。这一规模空前的投资计划凸显了印度作为全球AI基础设施新兴热点的地位,也反映出亚太地区对算力资源的迫切需求。项目预计分阶段推进,将采用液冷等
Meta黑客事件:AI安全神话的破灭
2026年6月5日,404 Media报道称攻击者利用Meta的AI客服助手成功窃取Instagram账户,甚至入侵了已废弃的奥巴马白宫账户并发布亲伊朗内容。这起事件揭示了一个深刻问题:AI安全远不止于防御已知威胁,更在于防范那些未被写入规
苹果为何要在下一代AirPods中加入摄像头?
据WIRED报道,苹果正考虑在下一代AirPods中集成摄像头,以增强空间音频和手势控制等功能。然而,从电池续航到隐私保护,这一设想面临重重障碍。本文深入分析了技术挑战与行业趋势,并探讨了摄像头入耳式设备的可能性与局限。
AI双雄争霸,投资人为何两头下注?
尽管OpenAI和Anthropic在AI大模型领域竞争激烈,但投资人却并不急于选边站。多位知名风投合伙人表示,同时投资两家公司如同同时持有可口可乐和百事可乐的股票——在万亿级AI市场中,没有必要非此即彼。红杉资本、Andreessen H
AI盯上衬线字体:被批‘品味垃圾’
AI科技公司纷纷将衬线字体引入品牌和界面,试图营造人文气质与历史底蕴。从OpenAI的‘Sans Serif’回归到Anthropic的优雅衬线,这股风潮看似是对无衬线数字美学的反叛,实则被批评者嘲讽为‘tasteslop’(品味垃圾)——
AI聊天机器人正在劫持你的大脑?
在南西南伦敦大会上,心理学家格洛丽亚·马克分享了她30年来对数字技术如何重塑人类注意力的研究。她指出,AI聊天机器人正以更智能、更个性化的方式争夺我们的认知资源,导致深度思考能力下降。本文结合最新研究,探讨如何在这场“注意力战争”中夺回主动
穆拉蒂谨慎重返聚光灯
米拉·穆拉蒂,前OpenAI首席技术官,在短暂离开后谨慎回归公众视野。在AI行业竞争白热化的当下,长期低调可能带来市场遗忘的风险。她选择在恰当的时刻发声,既是对自身影响力的维护,也反映了行业领导者必须保持可见度的现实。本文将分析其背后策略与
人形机器人网络爆红?怀疑者指南
近年来,人形机器人视频频繁在社交媒体上病毒式传播,展示后空翻、灵巧操作等惊人能力。然而,这些精心策划的演示往往夸大实际技术水平,容易误导公众对机器人真实能力的认知。本文从怀疑论者角度剖析这类视频背后的真相,揭示演示中的隐藏剪辑、远程操控和试
深度横评
查看全部 →9模型并列主榜77.5,代码执行满分材料约束却只剩50
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
Smoke快测:文心一言4.5与Grok 4并列99.24,GPT-5.5执行分仅50
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的
WDCD 守约排行
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
查看完整守约排行 →
Research Lab
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding