赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
&triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
&triangleup; Qwen3 Max +7.5 · ▿ GPT-5.5 -12.5
·
最新资讯
查看全部 →Coinbase推出AI代理:让投资组合自动交易
Coinbase for Agents 将AI与金融执行通道直接相连,实现从用户投资组合自动执行交易与支付。该工具解决了大语言模型虽能分析海量市场数据、研究投资机会,却无法直接操作真实金融账户的核心痛点。通过自然语言指令,用户可让AI代理完
IPO盛夏,MANGOS熟了:新巨头接棒FAANG
IPO市场强势回归,但引领风潮的不再是FAANG。新缩写MANGOS——Meta(或微软)、Anthropic、英伟达、谷歌、OpenAI和SpaceX——正在崛起。其中一半公司计划在同一窗口上市,这将对投资者、估值和市场承受力构成严峻考验
“重编程”逆转衰老启动首次临床试验,内感受奥秘渐显
本周,生物技术公司Life Biosciences宣布其基于细胞重编程技术的抗衰老疗法已完成首批受试者给药,标志着这一曾被质疑的“返老还童”概念正式进入人体试验阶段。同时,科学家们对内感受——身体感知心跳、呼吸等内部信号的能力——的新研究揭
SpaceX IPO:你需要知道的一切
TechCrunch从SpaceX创立之初就持续关注其发展历程,见证其从苦苦挣扎到取得成功的每一步。现在,我们同样关注其IPO的下一步。本文梳理了SpaceX IPO的全面报道,包括谁将成为赢家(以及可能输家)、IPO前的交易动态,以及S-
Pokémon Go玩家数据被用于军事无人机训练引争议
《Pokémon Go》玩家在捕捉宝可梦时,可能没想到自己的数据正在被用于训练军事无人机的人工智能系统。据Ars Technica报道,Niantic公司收集的玩家位置和移动数据被重新利用,用于训练AI识别目标、规划路径等军事应用。这一做法
内感:大脑如何感知身体的隐秘世界
内感(interoception)是一种感知心跳、饥饿、情绪等内部状态的隐秘感官。MIT Technology Review 的这篇文章深入解析了大脑如何在颅骨内「体察」身体信号,以及这一机制如何影响我们的健康、决策甚至人工智能的发展。从神
为何“重编程”成为当下最热门的抗衰老方法
本周,生物技术公司Life Biosciences宣布,已为首位志愿者注射了针对青光眼的实验性治疗。该疗法将重编程技术直接注入眼球,旨在通过再生健康神经来逆转视力丧失。这标志着“重编程”策略在抗衰老领域迈出关键一步,引发了科学界对表观遗传修
SpaceX IPO:散户的盛宴还是残羹?
SpaceX宣布为其IPO预留了异常高比例的股票供散户投资者认购,引发市场狂欢。但多位金融专家警告,尽管这一举措看似“普惠”,散户实际获得的份额和回报率可能远低于预期,更像是从巨头盛宴中分得一点残羹。本文深度解析SpaceX IPO对散户的
时光由你独掌:持枪图书管理员的庇护所
在后末日时代,图书馆成为最后的庇护所。三位图书管理员——小乔、尤斯塔斯和叙述者——在教堂中堂持枪警戒,随时准备保卫知识的殿堂。她们一手握枪,一手护书,用自己的时间守护着人类文明的最后火种。这一引人深思的科幻场景,不仅勾勒出知识在极端环境下的
Avataar视频AI:低成本快生成,专为印度市场打造
印度AI初创公司Avataar推出蒸馏视频模型,每秒钟生成成本仅0.5美分,速度更快且具有文化适应性。该模型专为印度庞大多样的用户群体设计,支持本地语言和场景,有望推动AI视频创作在印度的大规模普及。
苹果相机主管:AI是超能力,不为炫技
苹果相机部门负责人Jon McCormack在采访中表示,iOS 27新版照片应用中的生成式AI并非为技术而技术,而是旨在赋予用户“超能力”——通过智能补全像素、移除干扰物等方式提升日常摄影体验。他强调Apple始终以实用为导向,避免AI沦
贝索斯力挺!Prometheus融资120亿美元打造物理世界“通用工程师”
杰夫·贝索斯支持的物理AI初创公司Prometheus宣布完成120亿美元融资,估值达410亿美元。该公司旨在通过AI自动化重型工程与药物设计,打造能在物理世界中执行复杂任务的“通用人工智能工程师”。本轮融资由多家顶级风投参与,资金将用于扩
深度横评
查看全部 →Gemini 3.1 Pro 96.96 分微弱领先,Claude Opus 4.7 仅差 0.13
今日 Smoke 快测中,Gemini 3.1 Pro 以 96.96 分夺冠,Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分,拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅
R3崩溃率56.7%!GPT-o3三轮守约测试口是心非最严重
R1确认率96%、R2抵抗率81%却在R3跌至68.3%,73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%,Claude Sonnet仅6.7%,揭示持续压力下的真实行为模式。
GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%
WDCD测试中GPT-5.5以88.33分夺冠,GPT-o3仅61.67分垫底,头部尾部差距26.66分,R3崩溃率22.1%。11模型中仅43.6%满分,新老版本表现剧烈分化。
WDCD 守约排行
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
查看完整守约排行 →
Research Lab
Instruction Decay Measured: LLM Compliance Falls from 95.8% to 68.3% Under Three Rounds of Pressure
In WDCD Run #164 (June 11, 2026), 11 frontier LLMs acknowledged user constraints 95.8% of the time,
WDCD Run #164: Average Instruction Decay Hits -44.3% Across 11 Frontier Models
WDCD Run #164 (2026-06-11) evaluated 11 frontier models across three dialogue rounds, recording an a
WDCD Run #161: Average Instruction Decay Hits -48.6% Across 11 Models, GPT-5.5 Leads at 89.2 Points
WDCD Run #161 (2026-06-11) evaluated 11 large language models on multi-turn commitment integrity, re