赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
最新资讯
查看全部 →超越Siri:iOS 27为iPhone带来的实用AI功能
在WWDC 2026上,苹果重点展示了Siri的AI大升级,但iOS 27中更贴近日常的AI功能散布于照片、信息、邮件等原生应用中。这些功能包括智能相册自动剪辑、邮件摘要生成、键盘预测优化以及Spotlight深度搜索等。苹果正以更务实的方
特朗普打击Anthropic,谁将坐收渔利?
最新一期《Equity》播客深入剖析了特朗普政府为何突然对AI安全公司Anthropic出手,以及这一举动可能如何重塑AI行业格局。分析认为,白宫此举或意在遏制Anthropic在负责任AI领域的先发优势,为美国科技巨头铺路,但同时也可能意
Signal总裁警告:AI聊天机器人不是你的朋友
Signal总裁Meredith Whittaker近日在采访中直言不讳地指出,AI聊天机器人“不是你的朋友,没有意识,也不是有感知的对话者”。她警告用户不要对这些工具产生情感依赖或拟人化投射,强调其本质只是算法模型的输出。Whittake
Anthropic试图封禁中国开发者GitHub开源70B模型 项目获2万星标引诉讼
2026年6月19日,中国开发者在GitHub发布airllm 70B参数本地模型,迅速获得2万星标。Anthropic等公司随后采取封禁措施并引发诉讼。此事件将本地运行的开源模型与闭源服务之间的冲突公开化,也凸显出隐私保护与安全风险之间的
Anthropic CEO称印度AI峰会极度混乱 莫迪合影环节引发政治辩论
2026年6月19-20日,Anthropic首席执行官Dario Amodei公开批评印度AI峰会“极度混乱”,点名莫迪合影环节反复调整。事件迅速在印度国内政治与AI圈引发对立辩论,支持者认为其发言坦率,反对者指责其缺乏对主办方与国际合作
“权重”在手,虚荣我有:AI自恋搜索新工具
“In the Weights”是一款以AI为核心的虚荣搜索工具,让你能一键查询自己在网络世界中的“权重分数”。它不仅仅是一个娱乐玩具,更折射出AI在自我量化与数字身份领域的野心。本文带你解读这款新应用,并探讨它背后的技术、隐私和社交影响。
Qwen3 Max主榜暴跌19.2分,代码执行单日掉31.2分
赢政指数2026年6月Smoke评测显示,Qwen3 Max主榜从100分跌至80.82分,代码执行维度从100分降至68.80分,降幅31.2分。材料约束仅降4.5分,诚信评级维持pass。单日10题快测下,此类波动需区分抽签因素与真实能
Grok 4 趋势上涨19.8分领跑 Smoke 周报,Gemini 系列波动超28分
赢政指数 2026-W25 Smoke 7 天数据显示,Grok 4 趋势上涨 19.8 分至 100,DeepSeek V4 Pro 均值 98.7 分保持领先;Gemini 2.5 Pro 与 Gemini 3.1 Pro 波动分别达
Qwen3 Max主榜暴跌19.2分 四模型执行约束双满分
2026-06-21 Smoke评测中,DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4四模型主榜、执行、约束三项均为100分。Qwen3 Max主榜暴跌19.2分至80.82,执行维度从昨日高位跌至
戴尔AI服务器营收暴增757% 订单积压513亿美元引爆硬件市场关注
戴尔最新财报显示,其AI服务器相关业务营收同比暴增757%,订单积压达到513亿美元,充分反映全球AI基础设施需求旺盛。这一数据不仅提振了戴尔股价,也带动整个硬件产业链关注度上升。文章将深入分析财报细节、AI需求驱动因素、对行业竞争格局的影
Anthropic Mythos模型横空出世 全球AI监管政策持续发酵
Anthropic近日推出Mythos模型,引发行业关注的同时,也面临特朗普相关表态与安全讨论。挪威小学接近全面限制AI使用,科罗拉多州通过未成年人AI聊天法案,全球AI监管政策影响正加速发酵。本文客观分析模型发布背景、政策动态及其对行业和
Karpathy警示开发者:LLM应用不止提示工程,构建自主系统方为正道
Andrej Karpathy近日强调,正确使用LLM远不止提示工程,而是需构建能自主运行和自改进的系统。仅拒绝或简单使用AI的开发者将逐渐落后,此观点引发科技圈广泛讨论与反思,多篇深度文章被分享,互动活跃。
深度横评
查看全部 →Qwen3 Max主榜暴跌19.2分,代码执行单日掉31.2分
赢政指数2026年6月Smoke评测显示,Qwen3 Max主榜从100分跌至80.82分,代码执行维度从100分降至68.80分,降幅31.2分。材料约束仅降4.5分,诚信评级维持pass。单日10题快测下,此类波动需区分抽签因素与真实能
Grok 4 趋势上涨19.8分领跑 Smoke 周报,Gemini 系列波动超28分
赢政指数 2026-W25 Smoke 7 天数据显示,Grok 4 趋势上涨 19.8 分至 100,DeepSeek V4 Pro 均值 98.7 分保持领先;Gemini 2.5 Pro 与 Gemini 3.1 Pro 波动分别达
Qwen3 Max主榜暴跌19.2分 四模型执行约束双满分
2026-06-21 Smoke评测中,DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Grok 4四模型主榜、执行、约束三项均为100分。Qwen3 Max主榜暴跌19.2分至80.82,执行维度从昨日高位跌至
WDCD 守约排行
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
查看完整守约排行 →
Research Lab
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
WDCD Run #185 (2026-06-17) measured multi-turn commitment across 11 models, recording an average ins
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av