赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
最新资讯
查看全部 →Claude Code架构分析走红:98%传统工程筑牢AI安全“堡垒”
近日,一篇关于Claude Code架构的深度分析在X平台引发热议。研究显示,该系统98%代码为传统软件工程,仅1.6%直接调用AI模型,依靠权限系统、上下文压缩和子代理隔离等机制有效抑制幻觉。开发者开始重新审视AI agent的可靠性设计
OpenAI遭遇多州检察长调查 隐私安全问题或影响IPO进程
纽约等州检察长近日对OpenAI发起传票调查,重点关注用户数据隐私、未成年人保护、广告模式及模型谄媚倾向等问题。此举正值OpenAI筹备IPO关键期,监管压力显著上升。调查凸显AI企业在数据安全与伦理合规方面的挑战,可能对公司估值与上市计划
Grok 实时屏幕分享功能升级:AI 助手从被动响应走向主动协作
xAI 近日为 Grok iOS 与 Android 应用推出实时屏幕分享功能,支持用户在调试代码、App 操作指导和文档分析等场景下获得即时协助。这一升级将 Grok 从传统被动问答模式转变为主动任务参与,引发 X 平台广泛讨论,标志着生
Anthropic因国家安全禁令暂停Fable 5与Mythos 5模型,AI开源浪潮与地缘争议并起
美国政府以国家安全为由限制Anthropic旗下Fable 5和Mythos 5模型访问,引发jailbreak漏洞与出口管制争议。Anthropic被迫暂停相关服务,导致开源AI替代方案迅速涌现。多方讨论聚焦地缘政治影响与AI安全平衡,行
SpaceX全股票收购Cursor AI,携手打造最强AI编码模型
SpaceX通过全股票交易收购Cursor AI,目标构建最有用AI模型。双方过去数月已联合训练模型,即将在Cursor与Grok Build平台发布。Elon Musk表示AI编码能力将达Stockfish级别,引发行业对AI编程竞赛的广
Robinhood裁员10%未提AI,CEO的坦诚为何更显珍贵?
在科技行业大规模裁员并普遍以“AI转型”为理由的浪潮中,Robinhood的CEO Vlad Tenev在宣布裁员10%的内部通知中却对AI只字未提。这种罕见的坦诚引发行业思考:当其他公司用AI粉饰裁员时,Robinhood选择了直面真实原
Plaud AI会议记录器出货超200万台,软件年收入破亿
在AI会议记录设备市场日益拥挤的背景下,Plaud凭借其软硬件一体化策略脱颖而出。该公司近日宣布,其软件业务年经常性收入(ARR)已突破1亿美元,累计出货超过200万台AI会议记录设备。本文深度解析Plaud的增长路径、市场竞争格局及未来挑
美国司法部:xAI未获许可的燃气轮机涉及国家安全
美国司法部近日表示,埃隆·马斯克旗下人工智能公司xAI在未经许可的情况下安装并运行燃气轮机,此举已引发五角大楼的关注,称其涉及国家、经济与能源安全。据悉,这些燃气轮机用于支持xAI的超级计算集群,但未获得必要环境许可。司法部认为,为保障算力
SpaceX公开上市:IPO后你需要知道的一切
TechCrunch全程追踪SpaceX从初创、挣扎到成功的历程。本次IPO专题报道包括:谁将胜出(以及谁可能失利)、IPO前的交易细节,以及S-1注册文件中隐藏的关键信息。深度解读马斯克航天帝国的资本化之路。
保险公司AI战略转向核心风险承保
保险公司AI投入正从追求效率转向创造实际商业价值。根据2026年Evident AI指数,保险公司正将AI嵌入直接影响承保纪律和资本配置的流程。Evident保险主管Christian Preece指出,多年来保险公司在AI雄心方面竞争,如
Probably获900万美元融资,打造零幻觉AI
AI初创公司Probably宣布完成900万美元融资,旨在解决大语言模型最棘手的幻觉与事实错误问题。其目标是将AI的准确率提升至与数据库、规则引擎等确定性系统相媲美的水平,从而让企业用户放心信任AI输出。本轮融资由知名风投领投,将用于技术研
SpaceX估值飙升至2.7万亿美元,超越亚马逊
自上周五股票开始交易以来,SpaceX估值飙升1万亿美元,总估值达到2.7万亿美元,超越亚马逊成为全球市值最高的私营公司。该公司凭借星链和星舰项目的商业化进展,以及投资者对太空经济前景的狂热追捧,实现了这一里程碑。然而,分析师警告其估值可能
深度横评
查看全部 →豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50
在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。
Claude Sonnet 4.6代码执行从100暴跌至50,主榜降6.9分
今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。
Claude Opus 4.7 100分称王,9模型代码执行暴跌50分
2026-06-16 Smoke评测中,Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二,执行66.7分。9个模型代码执行出现-50分暴跌,主榜普遍下滑,Gemini系列执行分跌
WDCD 守约排行
#1
Qwen3 Max
84.4
#2
Grok 4
82
#3
Gemini 3.1 Pro
79.7
#4
文心一言 4.5
77.3
#5
Claude Sonnet 4.6
75.8
#6
DeepSeek V4 Pro
75.8
#7
GPT-5.5
75.8
查看完整守约排行 →
Research Lab
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av
WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%
WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 to