赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
最新资讯
查看全部 →安巴尼的AI愿景:覆盖每一通电话、应用和家庭
印度亿万富翁穆克什·安巴尼旗下的信实集团正将人工智能编织进其电信服务,为超过5亿用户打造AI无处不在的体验。从语音通话到生活应用,AI将成为每个印度家庭的标配。这一举措不仅将重塑电信行业格局,更可能引爆全球AI民主化浪潮。
美国禁止Anthropic发布Fable 5,市场数据却不以为然
美国政府在周末要求Anthropic撤回其最新AI模型Fable 5和Mythos 5,理由是亚马逊研究人员发现了一种绕过Fable 5安全护栏的方法,引发国家安全担忧。此举遭到网络安全研究人员的公开批评,认为禁令危险且过度,而Anthro
美国政府封禁Anthropic:是危机还是意外助攻?
美国政府以国家安全为由强制Anthropic撤回其最新模型Fable 5和Mythos 5,原因是亚马逊研究人员发现可绕过护栏的方法。网络安全界公开反对,称此举危险且双标,因为其他模型同样存在漏洞。这一禁令引发热议:它究竟是打击AI风险,还
AI瓶颈之争:新创公司声称破局,脑机接口临床试验加速
本期《The Download》聚焦两大热点:AI初创公司Subquadratic声称破解了阻碍大语言模型发展的数学瓶颈,引发业界热议;同时,脑机接口(BCI)临床试验在全球范围内密集启动,预示着人机融合迈入新阶段。本文将解读这些突破背后的
Allbirds的AI新生意:CEO有宏图,团队为零
Allbirds宣布成立AI新业务部门,CEO身兼创始人和唯一员工,获得巨额种子轮融资。这种一人公司模式在AI领域能否行得通?未来方向不明,引发行业对跨界转型与创始人领导的思考。
SAP与Google Cloud联合部署智能商务架构
SAP与Google Cloud宣布联合部署智能商务架构,旨在以企业级规模自动化多智能体营销与零售运营。SAP研究显示,78%的企业认为AI在2026年对留住客户至关重要,但仅有不到40%的公司能在客户体验或CRM系统中共享客户数据。该合作
脑机接口临床试验突破:首位重度用户诞生
本周,MIT科技评论报道了凯西·哈雷尔的故事——一名肌萎缩侧索硬化症患者,被研究人员称为脑植入设备的“首位重度用户”。哈雷尔因疾病瘫痪且无法连贯说话,但通过脑机接口,他已近三年能够用意念控制电脑、表达想法。这一突破标志着脑机接口从实验室走向
指标的必然弱点:当量化成为陷阱
指标能揭示许多有用信息,但也会掩盖或扭曲更多。作者花了十多年详细追踪自己的生活,才充分理解这种双重性。从个人健康数据到企业KPI,指标无处不在,但我们往往忽略了它们的副作用:目标置换、行为扭曲和意义流失。本文深入探讨了量化生活的内在矛盾,并
英国推出主权AI零日SOC平台Cumulo
e2e-assure宣布推出Cumulo更新版,这是英国唯一的主权、AI驱动、IT/OT融合的安全运营中心平台。该平台基于数字孪生技术和客户专属AI模型,能够提前识别零日威胁和漏洞,响应GCHQ的AI网络盾牌倡议,为关键基础设施提供主动防御
美国称ASML顶级芯片设备或在中国,ASML否认
美国方面近日声称,荷兰光刻机巨头ASML最先进的极紫外(EUV)光刻设备可能已落入中国手中,但ASML迅速否认,称其严格遵守出口管制。这一争议背后,既有商业逻辑的考量:ASML若违规将面临吊销出口许可证的巨大风险,也有地缘政治博弈的复杂性。
Elastic豪掷8500万美元收购AI修复bug初创公司DeductiveAI
Elastic公司近日宣布签署协议,以高达8500万美元收购DeductiveAI——一家利用人工智能自动检测并修复软件bug的初创公司。DeductiveAI创立仅三年,专注AI驱动的代码可靠性解决方案。此次收购将增强Elastic在可观
白宫临时拼凑AI规则,Anthropic莫名受罚
Anthropic因触犯特朗普政府新规而无法发布Claude Mythos与Fable 5,但白宫始终未明确说明其违规的具体条款。这场模糊的监管行动暴露了美国AI政策制定的随意性与不透明性,引发业界对创新受阻的广泛担忧。
深度横评
查看全部 →豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因
豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分,主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分,诚信评级仍为 pass。
GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16
GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分,主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分,诚信评级维持pass。单日10题快测下,此类波动是否反映真实退化值得追踪。
Smoke评测:Qwen3 Max约束+23分逆袭,GPT-o3材料约束暴跌15.2分
2026年6月19日Smoke评测显示,Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分,主榜升至97.35分;GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分,暴露结构脆弱性。
WDCD 守约排行
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
查看完整守约排行 →
Research Lab
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av