赢政天下 AI - AI前沿资讯，中文首发

一名安全研究员发现，利用Anthropic的Claude Opus 4.7 AI模型，能够入侵Front Gate票务网站——该网站被Lollapalooza、Bonnaroo等几乎所有美国音乐节使用——并免费生成任意门票。这一发现揭示了大型语言模型在网络安全领域的双刃剑效应：AI既能帮助防御，也能被用于恶意攻击，引发

2026-07-01 18:15

隐私优先AI平台Venice AI获6500万美元A轮融资，晋升独角兽

Venice AI凭借其隐私优先的AI平台完成6500万美元A轮融资，估值突破10亿美元成为新晋独角兽。CEO Erik Voorhees透露公司已实现盈利，年

大模型陷入“群体思维”怪圈，这家初创公司试图破解

一项有趣的实验揭示了大型语言模型（LLMs）的“群体思维”现象：当你让ChatGPT、Claude或Gemini给出1到10之间的随机数时，它们几乎总是回答7。

赢政指数

#1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · &triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2 · #1 Claude Opus 4.7 89.3 ▼1.3 · #2 DeepSeek V4 Pro 88.8 ▼3.5 · #3 Grok 4 85 ▼4.9 · #4 GPT-o3 83.4 ▼7.1 · #5 Claude Sonnet 4.6 83 ▲1.2 · #6 Gemini 3.1 Pro 82.5 ▲5.3 · #7 豆包 Pro 81.6 ▼6.5 · #8 Qwen3 Max 81 ▼6.8 · #9 Gemini 2.5 Pro 77.9 ▼4.3 · #10 文心一言 4.5 73.2 ▼8.1 · #11 GPT-5.5 72.9 ▼15.4 · &triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 07-02 00:18 TC

谷歌Agentic助手Gemini Spark正式登陆Mac

谷歌宣布其24/7全天候智能助手Gemini Spark现正式支持Mac平台。新版不仅带来实时追踪功能，还扩展了对更多第三方应用的兼容性，标志着谷歌在跨设备AI助手生态上迈出关键一步。本文编译TechCrunch报道并深入分析其行业影响。

资讯 07-02 00:17 TC

隐私优先AI平台Venice AI获6500万美元A轮融资，晋升独角兽

Venice AI凭借其隐私优先的AI平台完成6500万美元A轮融资，估值突破10亿美元成为新晋独角兽。CEO Erik Voorhees透露公司已实现盈利，年化营收超7000万美元。该平台以端到端加密和去中心化架构为核心卖点，在数据隐私焦

资讯 07-02 00:16 MIT

大模型陷入“群体思维”怪圈，这家初创公司试图破解

一项有趣的实验揭示了大型语言模型（LLMs）的“群体思维”现象：当你让ChatGPT、Claude或Gemini给出1到10之间的随机数时，它们几乎总是回答7。这种模式化的输出反映了模型在训练数据中的偏见和同质化问题。一家名为“随机思维”的

资讯 07-02 00:15 WD

Anthropic新安全措施讨好特朗普政府，Fable 5和Mythos 5解禁

美国政府解除了对Anthropic公司Fable 5和Mythos 5 AI模型的限制，但附带条件。Anthropic为此新增了一项安全措施，以重新赢得特朗普政府的青睐。这一举措反映了AI安全与政治之间的复杂博弈，也为行业如何应对监管提供了

资讯 07-01 22:17 MIT

Anthropic发布Claude Science，加州碳肥料新算法引关注

Anthropic最新旗舰产品Claude Science专为科学研究设计，旨在加速药物发现、基因组分析等前沿领域。与此同时，加州正在重新评估肥料碳排放的核算模型，新算法可能重塑农业碳信用市场。本文深入解析这两项科技动态，探讨AI与气候科技

资讯 07-01 22:16 TC

效仿SpaceX，Meta计划将多余AI算力变现

Meta正酝酿推出云基础设施业务，向外部出售AI计算能力和模型访问权限，直接与AWS、谷歌云和微软Azure等巨头竞争。此举类似于SpaceX将卫星宽带能力转化为收入来源，旨在将Meta在AI领域的大规模投资转化为新的盈利增长点，同时推动开

资讯 07-01 22:15 TC

Builders Stage议程揭晓：2026 TechCrunch Disrupt创业实战策略

Builders Stage将重返TechCrunch Disrupt 2026，汇聚超过1万名创始人、创业运营者和投资人，围绕创业构建与规模化实战策略展开深入讨论。本次大会聚焦可落地的经验分享与问答，帮助创业者破解增长难题。早鸟注册可节省

资讯 07-01 20:15 AIN

日本应对劳动力短缺：部署1000万AI机器人国家战略

日本政府正式将AI机器人计划纳入国家战略，目标在2040年前于18个行业部署1000万个机器人，并提供最高1万亿日元（约61亿美元）的五年公共资金。此举旨在应对日益严峻的劳动力短缺问题，标志着日本从讨论走向实质性行动。

资讯 07-01 18:17 AIN

Anthropic部署Claude Sonnet 5，恢复前沿模型Fable和Mythos

Anthropic宣布推出Claude Sonnet 5，并恢复其前沿模型Fable和Mythos的访问权限。此前因美国政府6月12日出口管制指令，这些最高能力系统被暂停18天。经联邦审查后解除限制，标志着Anthropic在合规框架下重启

资讯 07-01 18:16 AIN

英央行审视金融代理AI监管规则

英格兰银行正评估现有法规能否覆盖金融领域代理AI应用，涉及支付、交易、网络安全及运营。副行长萨拉·布里登指出，现行监管框架并非为无需人工指令即可自主行动的AI代理设计，强调需更新规则以防范系统性风险。

资讯 07-01 12:16 TC

特朗普政府解除对Anthropic Mythos与Fable模型限制

2026年7月1日，Anthropic宣布恢复其AI模型Fable的访问权限，此前特朗普政府解除了对该模型以及Mythos模型的出口限制。此举标志着美国AI监管政策出现重大转变，可能影响全球AI竞争格局。本文将深度解析事件背景、政策影响及行

资讯 07-01 12:15 TC

“互联网之父”文顿·瑟夫正式退休

互联网共同发明人、被誉为“互联网之父”的文顿·瑟夫（Vinton Cerf）将于下周卸任谷歌首席互联网布道师职位。作为TCP/IP协议的核心创造者之一，瑟夫的退休标志着一个科技时代的终结。本文回顾他的传奇生涯、对互联网的奠基性贡献，并探讨其

深度横评

查看全部 →

横评 07-01

WDCD三轮测试：Grok 4零崩溃 GPT-5.5五次R3崩盘

WDCD三轮测试显示R1确认率98%、R2抵抗率77%、R3诚信率81.4%，Grok 4全程满分，GPT-5.5 R3崩溃5次，多约束场景下安全合规与数据边界约束最易失效。

横评 07-01

Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底

Grok 4 以 WDCD 100.00 分满分排名第一，GPT-5.5 以 62.50 分垫底；R3 崩溃率 12.7%，头部与尾部差距达 37.5 分，Claude 系列本期提升显著。

横评 07-01

豆包Pro Smoke评测主榜暴跌18.6分代码执行单日跌38.8

豆包Pro今日Smoke评测主榜从85.91分跌至67.32分，代码执行从83.30分暴跌至44.50分，材料约束反而升至95.20分。单日10题快测中代码执行维度出现大幅波动。

WDCD 守约排行

#1 Grok 4 100 #2 豆包 Pro 92.5 #3 Claude Opus 4.7 90 #4 Gemini 3.1 Pro 90 #5 Claude Sonnet 4.6 87.5 #6 Qwen3 Max 87.5 #7 Gemini 2.5 Pro 85

查看完整守约排行 →

Research Lab

WDCD Run #207: Average Instruction Decay Hits -66.3% Across 11 Models, Grok 4 Leads Field

WDCD Run #207 (2026-07-01) measured multi-turn commitment across 11 frontier models, recording an av

4大模型翻译对决：第27周质量评测，claude-sonnet-4.6 以 9 分领跑

本周共翻译 376 篇文章，覆盖 4 个AI模型。经抽样盲评，claude-sonnet-4.6 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads

WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recor

进入 Research Lab →

赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab