赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
最新资讯
查看全部 →气候科技上市潮与AI热度指数回归
本期《The Download》聚焦气候科技公司上市热潮与AI热度指数回归。太阳能与电池公司Solv Energy于二月上市,估值达60亿美元;小型模块化核反应堆公司X-energy紧随其后。与此同时,《MIT科技评论》重启AI热度指数,追
AI算力角逐:下一个Cerebras现身?
在AI算力军备竞赛愈演愈烈之际,一家名为General Compute的初创公司做出大胆押注——将赌注倾注于SambaNova,认为这家芯片设计公司有望成为继Cerebras之后又一匹黑马。随着大模型参数突破万亿级,传统GPU架构逐渐力不从
6880美元起!Vertu AI折叠机让CEO用AI管理公司
Vertu最新推出基于开源Hermes项目的AI折叠手机,起价6880美元。该设备深度融合AI代理工作流与企业级应用集成,面向CEO等高端商务用户,提供从日程管理到决策支持的自动化服务,同时延续Vertu一贯的顶级奢华材质与手工工艺。
AI热潮遭遇毕业季冷遇:学生用嘘声回应科技大佬
当前谷歌CEO埃里克·施密特在亚利桑那大学演讲中鼓励毕业生为塑造AI的未来贡献力量时,迎接他的不是掌声,而是一片响亮的嘘声。这一事件并非孤例,它折射出毕业季学生群体对AI技术的复杂情绪——既担心饭碗被抢,又反感科技精英的“说教”。本文结合《
NBA引入AI界外球自动判罚系统
NBA总裁亚当·萧华近日宣布,联盟计划引入一套基于人工智能和球场摄像头的自动化判罚系统,首先应用于界外球归属判定。该系统类似网球中的鹰眼技术,通过多角度实时追踪球和球员位置,自动确定球权归属。此举旨在减少争议判罚,提升比赛公平性和流畅度。此
气候科技公司IPO热潮:下一步走向何方?
2026年,美国气候科技公司掀起IPO浪潮:太阳能电池公司Solv Energy以60亿美元估值上市,小型核反应堆开发商X-energy首日股价飙升。本文分析这一趋势背后的市场动力、行业挑战及未来展望。
亚马逊攻克决定数据中心未来的技术难题
亚马逊宣布在数据中心网络领域取得重大技术突破,通过新型光子互连架构和智能拥塞控制算法,将信息在庞大云基础设施中的传输速度提升超过10倍。这一创新不仅解决了长期制约AI训练和实时数据处理的数据传输瓶颈,还可能重新定义未来数据中心的物理设计。业
AI重塑编程世界:休产假归来的妈妈们遭遇巨变
新妈妈们重返软件开发岗位时,发现AI已彻底改变了工作方式。代码自动生成、AI辅助调试、智能协作工具……曾经熟悉的编程环境变得面目全非。本文通过多位重返职场的女性工程师的真实经历,揭示AI如何重塑软件行业,以及女性开发者在这个转型期面临的独特
日本股市AI半导体主题持续升温 索尼与TSMC合作协议引市场关注
日本股市AI半导体板块近期表现活跃。索尼半导体解决方案公司与台积电达成下一代图像传感器合作协议,推动物理AI概念受到投资者追捧。日本市场人士在社交平台X上热议相关个股,多篇帖文获百次以上点赞。本文分析合作背景、市场反应及对产业链的潜在影响,
谷歌AI连自家名字都拼错,这尴尬了谁?
谷歌旗下AI模型在生成文本时频繁出现拼写错误,甚至连公司名“Google”都无法正确拼写。本文深入剖析了这种现象背后的技术原因——基于token的分词机制与概率生成逻辑的固有缺陷,同时对比了OpenAI等竞争对手的处理方式,并指出这不仅是“
NVIDIA副总裁称AI算力成本远超员工薪资 双方激辩经济性
NVIDIA副总裁Bryan Catanzaro表示,其团队AI算力成本已超过员工薪资。该言论在X平台引发对立讨论,正方认可AI价值但指出基础设施压力,反方质疑AI投入产出比。文章基于公开事实,分析算力成本构成、行业影响及优化方向,区分已确
英伟达豪掷1500亿美元押注台湾,特朗普AI计划反成助攻
英伟达宣布每年投资1500亿美元,将台湾打造为全球AI“中心”。此举正值特朗普政府力推美国AI制造业回流之际,却因政策反复、供应链断裂风险,反而促使科技巨头加速海外布局。本文深度解析这一反直觉的战略选择及其对全球半导体格局的冲击。
深度横评
查看全部 →豆包 Pro 代码执行暴跌80分 主榜单日掉41.2
豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。
Gemini 3.1 Pro代码执行暴跌80分,主榜单日掉33.5
Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分,代码执行维度直接从100分崩到20分,材料约束小涨6分,诚信评级从fail转为pass。
Smoke评测全员腰斩:11模型主榜平均暴跌42分,代码执行维度集体失守
今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分,代码执行维度从昨日普遍高位跌至20或0分,仅Gemini 3.1 Pro以40.48分勉强领跑,暴露当前模型在复杂代码任务上的极端脆弱性。
WDCD 守约排行
#1
Qwen3 Max
72.5
#2
Claude Sonnet 4.6
65
#3
DeepSeek V4 Pro
62.5
#4
Gemini 2.5 Pro
60
#5
GPT-5.5
60
#6
Claude Opus 4.7
57.5
#7
GPT-o3
57.5
查看完整守约排行 →
Research Lab
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with