赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
最新资讯
查看全部 →特朗普政府出手阻挠xAI燃气轮机环保诉讼
美国全国有色人种协进会(NAACP)起诉马斯克旗下xAI公司,指控其在未获许可的情况下使用燃气轮机为Grok数据中心供电,违反《清洁空气法》。特朗普政府向法院提交动议,试图阻止该诉讼,引发环保与AI发展之间的激烈博弈。此案或成为AI基础设施
Anthropic与特朗普政府争执反促销售?数据给出意外答案
AI创企Anthropic与特朗普政府之间的公开争端,却意外地推动了其企业业务增长。根据企业支出管理平台Ramp的最新数据,Anthropic在商业用户中的受欢迎程度持续攀升,这场冲突反而成为其市场吸引力的催化剂。文章分析背后原因,并探讨政
Anthropic紧急叫停Claude Agent SDK按token计费计划
Anthropic原定于周一推出的基于token的计费模式,旨在为Claude Agent SDK提供更精细的用量控制,但该计划因可能导致高用量用户成本激增而引发争议。在开发者社区的强烈反对下,Anthropic宣布暂停该计费变更,并表示将
KPMG撤回Agentic AI报告 45条引用仅5条准确
2025年10月,毕马威发布《Total Experience: Redefining Excellence in the Age of Agentic AI》报告,2026年6月因AI生成幻觉内容被撤回。GPTZero调查显示,45条引用
纽约州检察长传唤OpenAI调查数据实践 IPO筹备遇监管对立
纽约等州检察长联盟已向OpenAI发出传票,调查用户数据实践、未成年人安全、广告及模型谄媚问题。调查正值OpenAI筹备大规模IPO之际,监管压力与公司扩张形成直接冲突。文章基于已确认事实,分析OpenAI产品在数据处理和安全机制上的实际表
美国令Anthropic禁用Fable 5与Mythos 5模型 国家安全与监管冲突加剧
2026年6月17日,美国商务部下令Anthropic禁用Fable 5和Mythos 5模型,理由是国家安全与越狱漏洞风险,亚马逊此前报警。此举导致全球访问受限,网络安全专家批评此举限制防御者能力,Anthropic员工赴白宫游说。事件凸
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average instruction decay of -5
WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
SpaceX估值飙至2.6万亿美元,短暂超越亚马逊
自上周五股票开始交易以来,SpaceX的估值暴涨1万亿美元,达到2.6万亿美元,一度超过电商巨头亚马逊,成为全球市值最高的公司之一。这一惊人的市值飞跃背后,是投资者对星链、星舰等业务的狂热追捧,以及二级市场对太空经济前景的极度乐观。
文心一言4.5主榜暴跌10.4分,任务表达维度从90分腰斩至46.3
文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。
Qwen3 Max材料约束暴跌28.9分 主榜却微涨0.8
Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。
深度横评
查看全部 →WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘
WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断
Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分
Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o
文心一言4.5主榜暴跌10.4分,任务表达维度从90分腰斩至46.3
文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。
WDCD 守约排行
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
查看完整守约排行 →
Research Lab
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av