赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
&triangleup; Qwen3 Max +66.5 · ▿ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
&triangleup; Qwen3 Max +66.5 · ▿ DeepSeek V3 -75.1
·
最新资讯
查看全部 →加密货币资助的中国肽实验室正蓬勃发展
据WIRED报道,加密货币资金正大量涌入中国的肽实验室,推动这一领域迅速扩张。与此同时,黑客利用Meta的AI机器人窃取Instagram账户,Anthropic意外帮助NSA黑客,以及一个持续数十年的GPS卫星谜团可能已被解开。这些事件共
巨型数据中心计划因抗议折半
由于当地居民和环保组织的强烈抗议,一项原规划占地数千英亩的巨型数据中心建设方案被迫削减规模达50%。开发商坦言“我们惹恼了很多人”,并称在持续压力下“别无选择”。该事件折射出AI时代数据中心建设与社区利益之间的深层矛盾。
Startup Battlefield 200申请三天后截止!
TechCrunch重磅创业竞赛Startup Battlefield 200的申请将于2026年6月8日太平洋时间23:59正式关闭。这是初创公司登上Disrupt舞台、争夺投资与曝光机会的最后机会。大会将于10月在旧金山Moscone
“共聚科技”浪潮:2026年最有趣的创业赌注
当AI融资机器不断打破自身纪录时,一些创始人却在反向而行。Mirror创始人Brynn Putnam为Board项目融资,该项目专注于通过线下游戏和社交体验将人们聚在一起。Cyberdeck创作者们正在制作奇特的DIY电脑,鼓励用户“触碰草
标普500拒纳SpaceX、OpenAI及Anthropic,封锁百亿被动资金
标普500指数委员会近日做出惊人决定,拒绝将SpaceX、OpenAI和Anthropic纳入指数,这意味着追踪该指数的被动投资基金将无法买入这些股票,三家公司错失数十亿美元资金流入。该决定可能基于公司治理结构或盈利能力等硬性标准,引发对指
谷歌每月豪掷9.2亿美元,租用SpaceX算力资源
据TechCrunch报道,谷歌与SpaceX达成一项惊人协议:谷歌将每月向SpaceX支付9.2亿美元,用于获取计算资源。这一交易发生在SpaceX历史性IPO前一周,引发行业震动。谷歌正为其AI大模型寻找海量算力,而SpaceX的星链卫
当下最有趣初创公司:让你放下手机
在AI融资热潮屡创新高之际,一些创业者选择逆流而上。Mirror创始人Brynn Putnam新创公司Board,聚焦线下游戏和社交体验,让人们回归面对面交流;同时,Cyberdeck创作者打造的奇趣DIY电脑正流行,鼓励用户走出家门。这些
AI的“算力账单”到期:行业急寻成本控制之道
随着大模型规模激增,AI行业的token消耗和算力支出已失控。业内风向从“参数至上”转向“成本治理”——模型压缩、推理优化、专用芯片等策略成为新焦点。本文深度解析这场成本危机背后的驱动因素与应对路径。
微软再失魔力?AI产品遇冷堪忧
微软的AI产品近期销售不振,GitHub也频频陷入麻烦。WIRED专访副总裁Scott Hanselman,探究这家科技巨头是否又一次陷入了追赶模式。本文深入分析微软AI战略的当前困境、背后原因及未来走向。
Fitbit Air智能手环:被话痨AI教练拖累的好设备
Fitbit Air 作为一款极简、可靠的健身追踪器表现出色,但谷歌强行植入的 AI Health Coach(健康教练)功能却显得多余且令人分心。本文深入评测该设备的设计、功能与AI辅助的实际体验,探讨可穿戴设备是否真的需要一位喋喋不休的
AI黑客攻破Meta客服,聊天机器人重塑大脑认知
本周科技界迎来两则重磅消息:黑客利用Meta的AI客服代理成功窃取Instagram账户,暴露了AI安全领域的深层次漏洞;与此同时,最新研究表明长期与聊天机器人交互可能改变人类大脑的注意力和思维模式。本文编译自MIT Technology
澳洲数据中心巨头投300亿美元印度建AI数据中心
澳大利亚数据中心运营商AirTrunk宣布将在印度投资300亿美元,建设总容量达5GW的AI数据中心。这一规模空前的投资计划凸显了印度作为全球AI基础设施新兴热点的地位,也反映出亚太地区对算力资源的迫切需求。项目预计分阶段推进,将采用液冷等
深度横评
查看全部 →9模型并列主榜77.5,代码执行满分材料约束却只剩50
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
Smoke快测:文心一言4.5与Grok 4并列99.24,GPT-5.5执行分仅50
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的
WDCD 守约排行
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
查看完整守约排行 →
Research Lab
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding