赢政天下 AI - AI前沿资讯，中文首发

一场英德足球赛的半场结束时，数百万英国人同时按下电水壶开关煮茶，导致电网出现显著波动。这种“能量密集型时刻”引发了对数据中心快速部署策略的思考：传统数据中心可能需要数年建设，但通过引入灵活供电系统——包括备用电池、储能和智能负载管理——可以大幅缩短上线时间，同时缓解对电网的冲击。本文分析这一创新方案如何平衡效率与稳定性

2026-06-16 18:17

OpenAI遭遇多州检察长调查隐私安全问题或影响IPO进程

纽约等州检察长近日对OpenAI发起传票调查，重点关注用户数据隐私、未成年人保护、广告模式及模型谄媚倾向等问题。此举正值OpenAI筹备IPO关键期，监管压力显

Grok 实时屏幕分享功能升级：AI 助手从被动响应走向主动协作

xAI 近日为 Grok iOS 与 Android 应用推出实时屏幕分享功能，支持用户在调试代码、App 操作指导和文档分析等场景下获得即时协助。这一升级将

赢政指数

#1 Claude Opus 4.7 95.3 · #2 Qwen3 Max 93.1 · #3 GPT-5.5 92.5 · #4 DeepSeek V4 Pro 92 · #5 Claude Sonnet 4.6 91.2 · #6 GPT-o3 89.6 · #7 Grok 4 88 · #8 豆包 Pro 87.6 · #9 文心一言 4.5 77.1 · #10 Gemini 3.1 Pro 76.3 · #11 Gemini 2.5 Pro 76 · &triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5 · #1 Claude Opus 4.7 95.3 · #2 Qwen3 Max 93.1 · #3 GPT-5.5 92.5 · #4 DeepSeek V4 Pro 92 · #5 Claude Sonnet 4.6 91.2 · #6 GPT-o3 89.6 · #7 Grok 4 88 · #8 豆包 Pro 87.6 · #9 文心一言 4.5 77.1 · #10 Gemini 3.1 Pro 76.3 · #11 Gemini 2.5 Pro 76 · &triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 06-17 01:35 X

Claude Code架构分析走红：98%传统工程筑牢AI安全“堡垒”

近日，一篇关于Claude Code架构的深度分析在X平台引发热议。研究显示，该系统98%代码为传统软件工程，仅1.6%直接调用AI模型，依靠权限系统、上下文压缩和子代理隔离等机制有效抑制幻觉。开发者开始重新审视AI agent的可靠性设计

资讯 06-17 01:35 X

OpenAI遭遇多州检察长调查隐私安全问题或影响IPO进程

纽约等州检察长近日对OpenAI发起传票调查，重点关注用户数据隐私、未成年人保护、广告模式及模型谄媚倾向等问题。此举正值OpenAI筹备IPO关键期，监管压力显著上升。调查凸显AI企业在数据安全与伦理合规方面的挑战，可能对公司估值与上市计划

资讯 06-17 01:35 X

Grok 实时屏幕分享功能升级：AI 助手从被动响应走向主动协作

xAI 近日为 Grok iOS 与 Android 应用推出实时屏幕分享功能，支持用户在调试代码、App 操作指导和文档分析等场景下获得即时协助。这一升级将 Grok 从传统被动问答模式转变为主动任务参与，引发 X 平台广泛讨论，标志着生

资讯 06-17 01:35 X

Anthropic因国家安全禁令暂停Fable 5与Mythos 5模型，AI开源浪潮与地缘争议并起

美国政府以国家安全为由限制Anthropic旗下Fable 5和Mythos 5模型访问，引发jailbreak漏洞与出口管制争议。Anthropic被迫暂停相关服务，导致开源AI替代方案迅速涌现。多方讨论聚焦地缘政治影响与AI安全平衡，行

资讯 06-17 01:35 X

SpaceX全股票收购Cursor AI，携手打造最强AI编码模型

SpaceX通过全股票交易收购Cursor AI，目标构建最有用AI模型。双方过去数月已联合训练模型，即将在Cursor与Grok Build平台发布。Elon Musk表示AI编码能力将达Stockfish级别，引发行业对AI编程竞赛的广

资讯 06-17 00:19 TC

Robinhood裁员10%未提AI，CEO的坦诚为何更显珍贵？

在科技行业大规模裁员并普遍以“AI转型”为理由的浪潮中，Robinhood的CEO Vlad Tenev在宣布裁员10%的内部通知中却对AI只字未提。这种罕见的坦诚引发行业思考：当其他公司用AI粉饰裁员时，Robinhood选择了直面真实原

资讯 06-17 00:18 TC

Plaud AI会议记录器出货超200万台，软件年收入破亿

在AI会议记录设备市场日益拥挤的背景下，Plaud凭借其软硬件一体化策略脱颖而出。该公司近日宣布，其软件业务年经常性收入（ARR）已突破1亿美元，累计出货超过200万台AI会议记录设备。本文深度解析Plaud的增长路径、市场竞争格局及未来挑

资讯 06-17 00:17 TC

美国司法部：xAI未获许可的燃气轮机涉及国家安全

美国司法部近日表示，埃隆·马斯克旗下人工智能公司xAI在未经许可的情况下安装并运行燃气轮机，此举已引发五角大楼的关注，称其涉及国家、经济与能源安全。据悉，这些燃气轮机用于支持xAI的超级计算集群，但未获得必要环境许可。司法部认为，为保障算力

资讯 06-17 00:16 TC

SpaceX公开上市：IPO后你需要知道的一切

TechCrunch全程追踪SpaceX从初创、挣扎到成功的历程。本次IPO专题报道包括：谁将胜出（以及谁可能失利）、IPO前的交易细节，以及S-1注册文件中隐藏的关键信息。深度解读马斯克航天帝国的资本化之路。

资讯 06-17 00:15 AIN

保险公司AI战略转向核心风险承保

保险公司AI投入正从追求效率转向创造实际商业价值。根据2026年Evident AI指数，保险公司正将AI嵌入直接影响承保纪律和资本配置的流程。Evident保险主管Christian Preece指出，多年来保险公司在AI雄心方面竞争，如

资讯 06-16 22:18 TC

Probably获900万美元融资，打造零幻觉AI

AI初创公司Probably宣布完成900万美元融资，旨在解决大语言模型最棘手的幻觉与事实错误问题。其目标是将AI的准确率提升至与数据库、规则引擎等确定性系统相媲美的水平，从而让企业用户放心信任AI输出。本轮融资由知名风投领投，将用于技术研

资讯 06-16 22:17 TC

SpaceX估值飙升至2.7万亿美元，超越亚马逊

自上周五股票开始交易以来，SpaceX估值飙升1万亿美元，总估值达到2.7万亿美元，超越亚马逊成为全球市值最高的私营公司。该公司凭借星链和星舰项目的商业化进展，以及投资者对太空经济前景的狂热追捧，实现了这一里程碑。然而，分析师警告其估值可能

深度横评

查看全部 →

横评 06-16

豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中，豆包Pro主榜从82.36分跌至72.50分，下滑9.9分。代码执行从100.00分直接跌至50.00分，材料约束则从60.80分升至100.00分，单日波动引发对题目抽签与真实能力稳定性的讨论。

横评 06-16

Claude Sonnet 4.6代码执行从100暴跌至50，主榜降6.9分

今日Smoke评测中，Claude Sonnet 4.6代码执行从100.00骤降至50.00，主榜从79.44跌至72.50；材料约束则从54.30升至100.00，工程判断升至95.90。

横评 06-16

Claude Opus 4.7 100分称王，9模型代码执行暴跌50分

2026-06-16 Smoke评测中，Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二，执行66.7分。9个模型代码执行出现-50分暴跌，主榜普遍下滑，Gemini系列执行分跌

WDCD 守约排行

#1 Qwen3 Max 84.4 #2 Grok 4 82 #3 Gemini 3.1 Pro 79.7 #4 文心一言 4.5 77.3 #5 Claude Sonnet 4.6 75.8 #6 DeepSeek V4 Pro 75.8 #7 GPT-5.5 75.8

查看完整守约排行 →

Research Lab

5大模型翻译对决：第25周质量评测，passthrough 以 9 分领跑

本周共翻译 443 篇文章，覆盖 5 个AI模型。经抽样盲评，passthrough 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop

WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av

WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%

WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 to

进入 Research Lab →

赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab