赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
&triangleup; Gemini 2.5 Pro +11.6 · ▿ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
&triangleup; Gemini 2.5 Pro +11.6 · ▿ Claude Sonnet 4.6 -15.6
·
最新资讯
查看全部 →Fugu多智能体模型:让企业摆脱单一AI供应商锁定
日本AI公司Sakana AI推出全新多智能体编排模型Fugu,旨在解决企业过度依赖单一AI API带来的运营风险。通过动态调用多样化模型池,Fugu在降低成本的同时提升系统鲁棒性,为AI应用提供灵活、抗锁定的架构方案。这一创新标志着多智能
深海隧道与灵活数据中心:科技前沿的双重突破
本期《下载》带您深入世界最深最长的海底公路隧道,感受千米深海下的工程奇迹。同时,灵活数据中心正崛起,重新定义算力部署方式。从北海到云端,科技如何重塑基础设施的未来?
Anthropic过度警告AI风险,反致出口禁令?
Anthropic,由前OpenAI员工创立的AI安全公司,因其对高级人工智能危险性的警告比竞争对手OpenAI更为频繁和严厉,反而可能将自己推入美国出口管制的困境。最新迹象显示,美商务部拟将Anthropic列入AI技术出口限制名单,理由
创始人增长峰会:TechCrunch创始人峰会门票6月26日涨价
TechCrunch宣布2026年创始人峰会将于11月4日在波士顿举行,专为创始人打造。当前门票享有早鸟优惠,最高可省190美元,但优惠截止于6月26日太平洋时间晚11:59。峰会聚焦创始人增长策略,汇聚行业领袖与创业者。有意参与者需抓紧最
AI让世界杯诈骗更难辨别
随着2026年世界杯的临近,AI技术正在被诈骗分子广泛利用,从伪造门票到克隆官方网站,诈骗手段愈发逼真且难以分辨。WIRED警告,球迷在购票、预订酒店时需加倍警惕,因为AI生成的虚假信息可能会让即使是经验丰富的消费者也上当受骗。本文将剖析A
数据中心建设成“背叛”?电工行业内部质疑声起
科技巨头投入巨额资金建设数据中心,但全国范围内反对声日益高涨。在此背景下,部分电工开始反思:参与这些项目是否值得?他们面临高薪诱惑与行业伦理的冲突,质疑自己是否在“出卖”行业初心。本文编译自WIRED,探讨数据中心建设热潮下的工人心声。
欧莱雅将美宝莲虚拟试妆融入ChatGPT
欧莱雅在VivaTech 2026上宣布与OpenAI合作,将美宝莲纽约的虚拟试妆功能引入ChatGPT。这一合作覆盖消费者购物工具、产品发现、广告试点、内部研究和内容制作,标志着AI在美妆行业应用的新里程碑。本文编译自AI News。
中国AI存储瓶颈凸显:HBM与先进封装或成未来三年核心挑战
中文社交平台近日热议中国AI产业未来三年发展瓶颈,HBM、DRAM、光互连及先进封装等环节成为焦点。存储价格上涨与长单签约受关注,美光、英伟达等公司动态引发市场讨论。分析指出,供应链紧张可能影响AI训练与推理效率,中国企业正加速布局国产替代
Google Gemini 3.5 Pro 即将发布,开发者期待新模型重塑AI竞赛格局
Google承诺将于6月推出Gemini 3.5 Pro,目前内部已在使用该模型,开发者社区高度期待。Flash版本已上线,Pro版有望成为第二季度最受关注的AI模型,将显著影响API定价策略和行业采用率。本文深入分析其发布背景、技术亮点及
OpenAI GPT-5.6系列即将登场:150万token上下文重塑AI竞争格局
OpenAI即将推出GPT-5.6系列模型,包括Mini和Pro版本,支持150万token超长上下文及长程编码能力。该系列已通过ChatGPT Pro提前泄露,预计下周正式发布。此举将进一步加剧AI大模型市场份额争夺,行业格局或将发生显著
AI Agent Loops自改进系统引爆热议:Andrew Ng展示40分钟从零搭建App
Andrew Ng与Anthropic工程师近日展示AI Agent Loops技术,通过记忆、子代理和停止条件构建自改进系统,仅需40分钟即可从零搭建应用。该技术在X平台引发数千互动,被视为2026年AI发展重要趋势,强调自主迭代能力将重
Sakana AI发布Fugu多代理编排系统,单API提供前沿AI能力
Sakana AI近日推出Fugu全多代理编排系统及Fugu Ultra模型。该系统性能可媲美Fable和Mythos等顶级模型,同时规避出口管制风险。通过单一API接口,开发者可直接调用前沿多代理能力,迅速引发行业内热议与试用热潮。本文深
深度横评
查看全部 →Gemini 2.5 Pro主榜暴跌28分,代码执行从100直接腰斩
Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分,暴跌28分,主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分,其他维度持平或微升,诚信评级维持pass。
Qwen3 Max材料约束暴跌26.7分,代码执行却升至100分
赢政指数今日Smoke评测显示,Qwen3 Max材料约束从95.50跌至68.80(-26.7),代码执行从68.80升至100.00(+31.2),主榜从80.82升至85.96(+5.1)。单日10题快测波动正常,但需区分抽签与真实退
文心一言主榜暴跌40.3分,Smoke评测揭露执行约束双崩
2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一,文心一言4.5主榜仅47.98分暴跌40.3分,Gemini 2.5 Pro主榜71.33分大降28分,Qwen3 Max材料约束跌26.7分,执行与
WDCD 守约排行
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
查看完整守约排行 →
Research Lab
4大模型翻译对决:第26周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 393 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。