赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
&triangleup; Qwen3 Max +66.5 · ▿ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
&triangleup; Qwen3 Max +66.5 · ▿ DeepSeek V3 -75.1
·
最新资讯
查看全部 →Anthropic将Claude Mythos扩展至15国关键基础设施
Anthropic正在扩大其安全漏洞项目Project Glasswing,并将Mythos访问权限拓展至15个国家的150个组织,重点覆盖电力、水务、医疗和通信等关键基础设施领域。这些领域的网络攻击可能影响超过1亿人。这一举措标志着AI安
获OpenAI巨额投资,Opal转型打造AI音频设备
以高端网络摄像头闻名的Opal公司,在获得OpenAI和三星的大额投资后,正全力转型进军消费电子领域。其首款产品是一款AI驱动的音频设备,旨在颠覆传统耳机市场。本文深度解析Opal的战略转向、技术布局及行业影响。
火箭发动机初创公司Impulse获5亿美元融资,宁愿雇人而非AI
在人工智能席卷各行各业的浪潮中,火箭发动机初创公司Impulse Space却反其道而行之。该公司近日宣布完成5亿美元融资,资金将主要用于招聘人类工程师而非AI系统。总裁Eric Romo明确表示,工程物理系统的复杂性仍需人类专业人才来掌控
AI接管行政:小企业高效运营新引擎
在当今快节奏的商业环境中,小企业主常常身兼多职,从会计到设计、从市场研究到产品开发,每一项都需要专业技能。大型企业有专门团队,而小企业则常因资源有限而效率低下。MIT Technology Review最新报道指出,人工智能正改变这一局面—
ZeroDrift获千万美元融资,为AI模型打造“合规防火墙”
AI合规服务商ZeroDrift宣布完成1000万美元融资,其核心产品位于AI模型与终端用户之间,可实时标记并替换可能引发合规风险的输出内容。随着大模型在金融、医疗等强监管领域加速落地,AI输出的准确性、偏见与敏感内容成为企业核心焦虑。该方
GitHub Copilot用户遭遇令牌计费涨价
自今年4月GitHub宣布Copilot将转向基于令牌(token)的计费模式以来,业界对其成本影响猜测不断。6月1日正式切换后,不少用户发现实际费用远超此前固定月费。这一变化不仅反映了AI服务成本结构的复杂性,也引发了开发者对AI工具定价
AI代理时代:如何让全球医疗回归人性?
全球医疗系统正面临前所未有的压力:长期投资不足、招聘困难、人口老龄化导致服务需求激增,医护人员身心俱疲。代理AI(Agentic AI)——一种能自主分析、决策并执行复杂任务的智能系统,正被视为破解这一困局的关键。它不仅能优化分诊、管理电子
小企业AI赋能:从财务到研发的全方位指南
本文编译自MIT Technology Review《Making AI Work》通讯,探讨小企业如何利用AI应对多领域技能需求。从会计自动化到设计生成、市场分析到产品开发,LLM等工具正以低成本填补人才缺口。编者指出,小企业应聚焦易用型
特朗普政府内讧:AI监管之争陷入僵局
唐纳德·特朗普推翻了前任政府关于AI监管的行政令,如今,白宫官员与科技巨头高管们正试图在碎片化政策中寻找出路。这场内部斗争暴露了美国在AI治理上的深刻分歧——既要保持技术领先,又要防范潜在风险,而特朗普团队的摇摆不定让行业无所适从。本文剖析
GitHub Copilot新定价让用户“一天花光月额度”
GitHub Copilot近日宣布采用基于AI信用点的新计费系统,取代原有的固定月费模式。部分重度用户反馈,他们在一天之内就用完了整个月的信用点额度,引发社区热议。这一变化反映了AI服务提供商在成本压力下的定价策略调整,同时也让开发者重新
Alphabet拟融资800亿美元豪赌AI基建
Alphabet宣布计划筹集800亿美元用于AI基础设施建设,以满足远超供给的企业与消费者需求。这笔巨额融资凸显科技巨头在AI领域的军备竞赛进入白热化阶段,分析师警告过度投资风险,但认为此举将加速AI应用落地并重塑产业格局。
佛罗里达州起诉OpenAI及奥尔特曼:AI卷入暴力事件首案
佛罗里达州政府首次对OpenAI及其CEO萨姆·奥尔特曼提起诉讼,指控ChatGPT与去年佛罗里达州立大学的一起枪击事件有关。该案开创了AI技术因被指煽动暴力而面临法律追责的先例,引发行业对AI安全与责任归属的深度讨论。
深度横评
查看全部 →GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
WDCD 守约排行
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
查看完整守约排行 →
Research Lab
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding