赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
&triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
&triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2
·
最新资讯
查看全部 →谷歌Agentic助手Gemini Spark正式登陆Mac
谷歌宣布其24/7全天候智能助手Gemini Spark现正式支持Mac平台。新版不仅带来实时追踪功能,还扩展了对更多第三方应用的兼容性,标志着谷歌在跨设备AI助手生态上迈出关键一步。本文编译TechCrunch报道并深入分析其行业影响。
隐私优先AI平台Venice AI获6500万美元A轮融资,晋升独角兽
Venice AI凭借其隐私优先的AI平台完成6500万美元A轮融资,估值突破10亿美元成为新晋独角兽。CEO Erik Voorhees透露公司已实现盈利,年化营收超7000万美元。该平台以端到端加密和去中心化架构为核心卖点,在数据隐私焦
大模型陷入“群体思维”怪圈,这家初创公司试图破解
一项有趣的实验揭示了大型语言模型(LLMs)的“群体思维”现象:当你让ChatGPT、Claude或Gemini给出1到10之间的随机数时,它们几乎总是回答7。这种模式化的输出反映了模型在训练数据中的偏见和同质化问题。一家名为“随机思维”的
Anthropic新安全措施讨好特朗普政府,Fable 5和Mythos 5解禁
美国政府解除了对Anthropic公司Fable 5和Mythos 5 AI模型的限制,但附带条件。Anthropic为此新增了一项安全措施,以重新赢得特朗普政府的青睐。这一举措反映了AI安全与政治之间的复杂博弈,也为行业如何应对监管提供了
Anthropic发布Claude Science,加州碳肥料新算法引关注
Anthropic最新旗舰产品Claude Science专为科学研究设计,旨在加速药物发现、基因组分析等前沿领域。与此同时,加州正在重新评估肥料碳排放的核算模型,新算法可能重塑农业碳信用市场。本文深入解析这两项科技动态,探讨AI与气候科技
效仿SpaceX,Meta计划将多余AI算力变现
Meta正酝酿推出云基础设施业务,向外部出售AI计算能力和模型访问权限,直接与AWS、谷歌云和微软Azure等巨头竞争。此举类似于SpaceX将卫星宽带能力转化为收入来源,旨在将Meta在AI领域的大规模投资转化为新的盈利增长点,同时推动开
Builders Stage议程揭晓:2026 TechCrunch Disrupt创业实战策略
Builders Stage将重返TechCrunch Disrupt 2026,汇聚超过1万名创始人、创业运营者和投资人,围绕创业构建与规模化实战策略展开深入讨论。本次大会聚焦可落地的经验分享与问答,帮助创业者破解增长难题。早鸟注册可节省
日本应对劳动力短缺:部署1000万AI机器人国家战略
日本政府正式将AI机器人计划纳入国家战略,目标在2040年前于18个行业部署1000万个机器人,并提供最高1万亿日元(约61亿美元)的五年公共资金。此举旨在应对日益严峻的劳动力短缺问题,标志着日本从讨论走向实质性行动。
Anthropic部署Claude Sonnet 5,恢复前沿模型Fable和Mythos
Anthropic宣布推出Claude Sonnet 5,并恢复其前沿模型Fable和Mythos的访问权限。此前因美国政府6月12日出口管制指令,这些最高能力系统被暂停18天。经联邦审查后解除限制,标志着Anthropic在合规框架下重启
英央行审视金融代理AI监管规则
英格兰银行正评估现有法规能否覆盖金融领域代理AI应用,涉及支付、交易、网络安全及运营。副行长萨拉·布里登指出,现行监管框架并非为无需人工指令即可自主行动的AI代理设计,强调需更新规则以防范系统性风险。
特朗普政府解除对Anthropic Mythos与Fable模型限制
2026年7月1日,Anthropic宣布恢复其AI模型Fable的访问权限,此前特朗普政府解除了对该模型以及Mythos模型的出口限制。此举标志着美国AI监管政策出现重大转变,可能影响全球AI竞争格局。本文将深度解析事件背景、政策影响及行
“互联网之父”文顿·瑟夫正式退休
互联网共同发明人、被誉为“互联网之父”的文顿·瑟夫(Vinton Cerf)将于下周卸任谷歌首席互联网布道师职位。作为TCP/IP协议的核心创造者之一,瑟夫的退休标志着一个科技时代的终结。本文回顾他的传奇生涯、对互联网的奠基性贡献,并探讨其
深度横评
查看全部 →WDCD三轮测试:Grok 4零崩溃 GPT-5.5五次R3崩盘
WDCD三轮测试显示R1确认率98%、R2抵抗率77%、R3诚信率81.4%,Grok 4全程满分,GPT-5.5 R3崩溃5次,多约束场景下安全合规与数据边界约束最易失效。
Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底
Grok 4 以 WDCD 100.00 分满分排名第一,GPT-5.5 以 62.50 分垫底;R3 崩溃率 12.7%,头部与尾部差距达 37.5 分,Claude 系列本期提升显著。
豆包Pro Smoke评测主榜暴跌18.6分 代码执行单日跌38.8
豆包Pro今日Smoke评测主榜从85.91分跌至67.32分,代码执行从83.30分暴跌至44.50分,材料约束反而升至95.20分。单日10题快测中代码执行维度出现大幅波动。
WDCD 守约排行
#1
Grok 4
100
#2
豆包 Pro
92.5
#3
Claude Opus 4.7
90
#4
Gemini 3.1 Pro
90
#5
Claude Sonnet 4.6
87.5
#6
Qwen3 Max
87.5
#7
Gemini 2.5 Pro
85
查看完整守约排行 →
Research Lab
WDCD Run #207: Average Instruction Decay Hits -66.3% Across 11 Models, Grok 4 Leads Field
WDCD Run #207 (2026-07-01) measured multi-turn commitment across 11 frontier models, recording an av
4大模型翻译对决:第27周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 376 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads
WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recor