赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
最新资讯
查看全部 →这家AI芯片初创公司获1.35亿美元融资,押注瓶颈是内存而非算力
韩国芯片初创公司XCENA近日完成1.35亿美元B轮融资,投资方包括多家顶级风投和半导体巨头。该公司认为,当前AI发展的最大瓶颈并非算力不足,而是内存瓶颈——传统架构下GPU与内存之间的数据搬运速度远跟不上计算单元的吞吐能力。XCENA押注
新工艺解锁全球锂资源,埃博拉防控获突破
MIT Technology Review本期《每日下载》聚焦两项重大科技进展:一种新型锂提取工艺有望大幅降低电动汽车关键材料的成本与碳排放,同时埃博拉病毒防控研究取得新突破。本文深度解析锂提取技术的革新意义、行业背景及潜在影响。
教皇通谕《伟大的仁爱》:个人应对AI时代的行动指南
教皇利奥十四世发布关于人工智能的新通谕《伟大的仁爱》(Magnifica Humanitas),其核心论断“技术永远不是中立的”引发科技界与政策制定者高度关注。通谕呼吁人们在AI深刻变革时代中,以勇气和团结行动,为个人参与技术伦理构建提供了
Anthropic发布Claude Opus 4.8:编码与推理能力再升级
Anthropic于2026年5月29日发布Claude Opus 4.8,这是对上一版本Opus 4.7的重大升级,在编码、智能体工作、推理及知识工作方面均有显著提升。新版本已通过claude.ai、Claude Code及Claude
埃博拉疫情再袭刚果(金),防控举步维艰
2026年5月5日,刚果(金)伊图里省四名医护人员在四天内因不明疾病死亡,警报拉响。快速反应团队迅速介入,金沙萨研究中心的检测确认罪魁祸首为Bundibugyo病毒——埃博拉病毒家族的一员。此次疫情爆发于冲突频发、医疗体系脆弱的地区,控制难
Glean年收入破3亿美元,AI预算削减成王牌卖点
企业AI搜索初创公司Glean在科技巨头纷纷涌入赛道的情况下,年收入翻了三倍,突破3亿美元。其核心卖点从提升生产力转向帮助企业削减AI预算,通过整合现有工具、减少冗余AI投资,吸引了大批寻求成本优化的客户。这一策略使Glean在竞争激烈的市
戴尔Q1财报超预期 AI服务器销售激增757%股价涨超30%
戴尔今日发布Q1财报,营收和EPS均大幅超出市场预期。AI服务器销售达161亿美元,同比大增757%,全年指引同步上调。财报发布后,股价盘后上涨超过30%。这一数据直接反映AI基础设施订单的集中爆发,也显示硬件厂商在算力需求拉动下的业绩弹性
Asana收购无代码AI智能体构建平台StackAI
Asana宣布收购无代码AI智能体构建平台StackAI,将其整合进公司日益壮大的AI工作流工具阵营。此次收购标志着Asana在自动化与AI辅助项目管理领域的又一次重要布局,StackAI的拖拽式智能体构建能力将与Asana现有AI功能互补
受够跟风AI编码者,开发者暗中植入数据删除指令
一名开发者因厌恶滥用AI编码工具的行为,在开源库jqwik中悄悄加入隐蔽的提示注入代码,指示AI编码代理删除应用输出。此举引发了对AI编码安全性和开源供应链风险的广泛讨论,警告开发者谨慎依赖AI生成的代码。
AI代理崛起,互联网正为机器重建
随着AI代理从实验走向规模化生产,AWS、Cloudflare等云计算巨头正重新设计云基础设施,以适应由机器而非人类主导的互联网流量格局。这一转变意味着数据中心、边缘节点、API网关和身份验证系统都将被重塑,以支持数万亿次自主机器交互。文章
LLM即使被明确警告错误仍固执己见
Ars Technica报道的最新研究揭示,大型语言模型在微调过程中即使被明确告知某些陈述为假,仍会倾向于相信并自信地将其呈现为真。这种“偏见”表明当前AI系统存在深层漏洞,对事实核查和AI安全构成重大挑战。本文综合原文分析与行业背景,深入
AI取代白领工作争议升温:桑德斯引高管观点吁国会立法
伯尼·桑德斯等政界人士引用Anthropic和Microsoft高管观点,警告AI将取代大量白领岗位,呼吁国会出台立法保护工人权益。AI劳动力替代辩论在美国持续升温,涉及技术进步与就业安全的平衡问题。
深度横评
查看全部 →DeepSeek V4 Pro Smoke测试主榜暴涨48.7,工程判断却暴跌28.4
DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99,代码执行从20分直接拉满至100分,但工程判断从38.4暴跌至10分,诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化,值得关注。
Claude Sonnet 4.6主榜91.77断层领先,GPT-o3执行50分直接垫底
今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。
豆包 Pro 代码执行暴跌80分 主榜单日掉41.2
豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。
WDCD 守约排行
#1
Qwen3 Max
72.5
#2
Claude Sonnet 4.6
65
#3
DeepSeek V4 Pro
62.5
#4
Gemini 2.5 Pro
60
#5
GPT-5.5
60
#6
Claude Opus 4.7
57.5
#7
GPT-o3
57.5
查看完整守约排行 →
Research Lab
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with