赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
&triangleup; Gemini 2.5 Pro +11.6 · ▿ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
&triangleup; Gemini 2.5 Pro +11.6 · ▿ Claude Sonnet 4.6 -15.6
·
最新资讯
查看全部 →AI重塑零售业:看不见的变革正在发生
人工智能正以消费者不易察觉的方式悄然重塑零售业。真正的变革并非炫酷的虚拟试衣或聊天机器人,而是幕后决策机制的深层转型:产品如何出现在搜索结果前列、库存如何在供应链中高效流动、工程师如何更快交付代码。这些看似冷冰冰的算法与流程优化,正在重新定
Netris获a16z领投1500万美元,助力AI云更快落地
Netris开发运行在网络交换机上的软件,为AI新云(neocloud)运营商提供平台,大幅缩短上线时间。该公司近日完成由a16z领投的1500万美元A轮融资,标志着AI基础设施软件赛道再获资本青睐。
欧洲热浪冲击电网,IBM芯片挑战摩尔定律
欧洲正遭遇创纪录高温,电网在空调需求激增下接近极限,多座电厂被迫关闭。与此同时,IBM公布新型芯片技术,旨在延续摩尔定律的推进速度。本文编译自MIT Technology Review,深入分析极端天气对能源系统的威胁,以及芯片行业如何突破
Adobe收购图像增强明星Topaz Labs,AI编辑能力再升级
Adobe宣布收购AI图像与视频增强工具开发商Topaz Labs,计划将其先进的技术整合到Photoshop、Premiere Pro等核心产品中。此次收购标志着Adobe在AI驱动的内容创作领域进一步加码,有望重塑专业影像编辑的工作流程
创投峰会早鸟价仅剩2天,省190美元
TechCrunch创始人峰会2026早鸟优惠将于6月26日太平洋时间晚11:59截止,仅剩2天锁定席位,最高可节省190美元。峰会汇聚1000+创始人、投资者,探讨科技创业前沿趋势。立即注册,抓住最后机会。
欧洲热浪冲击电网:高温下的能源危机
欧洲持续高温打破纪录,导致学校停课、活动取消,甚至迫使伦敦气候行动周取消极端高温主题活动。热浪不仅威胁人类健康,更对电力系统构成严峻考验:空调需求激增、电网负荷创历史新高,而太阳能和风能等可再生能源在高温下效率下降,暴露出能源转型中的脆弱性
世界杯球队竞逐AI主导权
国际足联将在2026年世界杯上为所有参赛球队提供一个官方AI代理,试图缩小科技差距。然而,这一举措能否真正实现公平竞争仍是未知数——真正决定比赛胜负的,或许仍是各队能否负担更强大的定制化AI工具。本文深入分析AI如何改变足球战术、训练与比赛
亚马逊加码印度,新投资130亿美元建设AI基础设施
亚马逊宣布在印度追加130亿美元投资,用于扩建AI数据中心和云计算基础设施。这是其迄今为止在印度的最大单笔投资,也标志着全球科技巨头加速布局印度AI市场。本文深度解析亚马逊的战略意图、印度AI生态现状及全球科技竞争格局。
英国警察建起庞大犯罪预测机器,部分结果却不可信
随着英国警方拥抱AI革命,WIRED的一项调查揭示了一个地区在预测分析实验中的混乱内幕。该系统旨在通过算法提前锁定犯罪高发区域,但内部文件显示,其预测结果存在严重偏差,甚至无法通过基本验证。专家警告,盲目依赖此类技术可能导致资源错配和警务偏
IBM实现全球首个亚1纳米芯片技术突破
IBM宣布研发出全球首款亚1纳米(sub-1nm)芯片技术,采用创新的纳米堆栈晶体管(nanostack transistors)架构,有望在性能或能效方面实现显著提升。这一突破打破了传统摩尔定律的物理极限,为未来超大规模集成电路和AI计算
OpenAI Jalapeño芯片背后的成本算术
OpenAI与Broadcom合作开发定制ASIC芯片“Jalapeño”,旨在削减对Nvidia高利润GPU的依赖,降低AI基础设施的巨额资本支出。本文剖析该芯片背后的商业逻辑,并探讨其对AI芯片市场格局的潜在影响。
OpenAI与博通联手打造大模型推理芯片
为应对大模型推理需求飙升,OpenAI与博通(Broadcom)联合宣布推出一款专为大规模LLM推理设计的定制芯片。该芯片基于博通在ASIC(专用集成电路)领域的深厚积累,旨在显著降低推理成本与延迟,加速AI应用落地。此举标志着AI领域的芯
深度横评
查看全部 →Qwen3 Max代码执行暴跌50分,主榜仅降1.5分
Qwen3 Max在今日Smoke评测中代码执行从100.00分跌至50.00分,主榜从74.00分微降至72.50分。材料约束升至100.00分,诚信评级从fail转为pass,单日波动幅度达50分。
Claude Opus 4.7 Smoke评测主榜暴跌27.5分,代码执行从100直降50
Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分,代码执行维度从100.00暴跌至50.00分,材料约束保持100.00不变,工程判断从83.40升至100.00,诚信评级维持pass。
4模型执行分暴跌至50,文心一言主榜狂掉34.1分
2026-06-24 Smoke评测中,文心一言4.5主榜暴跌34.1分至64.63,Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分,核心原因是代码执行从100直接跌至50。今日前三名Dee
WDCD 守约排行
#1
Qwen3 Max
92.5
#2
Gemini 3.1 Pro
87.5
#3
Grok 4
82.5
#4
DeepSeek V4 Pro
80
#5
文心一言 4.5
75
#6
Gemini 2.5 Pro
75
#7
豆包 Pro
72.5
查看完整守约排行 →
Research Lab
WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop
WDCD Run #196 (2026-06-24) tested 11 leading models across three dialogue rounds, recording an avera
4大模型翻译对决:第26周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 393 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins