AI资讯 — 行业快报与全球报道

11 个模型同一道闭包题全给 [2,2,2]，赢政指数却集体 0 分

11 个主流模型在同一道 Python 闭包题目上，10 个直接输出 [2, 2, 2]，仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分，暴露了“格式严格性”对最终得分的决定性影响，也显示当前模型在循环变量捕获问题上已形成

代码执行材料约束 Python 闭包模型一致性

2026年6月8日 293

测评

GPT-o3蓄水池采样题100分骤降至0，代码执行真相藏细节

v6评测中GPT-o3主榜上涨7分至82.82，但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分，材料约束提升14分，稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断，暴露算法实现一致性缺陷。

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 189

测评

Claude Sonnet 4.6 SQL严格题从100分跌至0，主榜却反升9.3

Claude Sonnet 4.6在“SQL：疑似重复支付识别”一题从100分直接归零，但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口，导致自连接爆炸式匹配，暴露严格题下的逻辑断层。

Claude Sonnet 4.6 代码执行 SQL故障重复支付识别

2026年6月8日 226

测评

11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

本周 7 款新模型首次上榜即拿下 72.4-80.9 分，Grok 4 以 89.90 分登顶，DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出，旧榜单结构被彻底打破。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 241

原创

3大模型翻译对决：第24周质量评测，passthrough 以 9 分领跑

本周共翻译 2425 篇文章，覆盖 3 个AI模型。经抽样盲评，passthrough 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 passthrough deepseek-v4-pro

2026年6月8日 247

测评

Claude Opus 4.7与GPT-5.5并列Smoke榜首材料约束成为最大分水岭

今日Smoke评测中，Claude Opus 4.7与GPT-5.5并列主榜第一（92.53分），代码执行均满分，材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底，材料约束仍是区分顶级模型的核心变量。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 267

测评

GPT-5.5 暴跌 23 分，Claude 两款模型逆袭 34 分：Smoke 7 天数据揭示真实走势

本周 Smoke 快测显示，GPT-5.5 从 86.95 滑落至 63.89，趋势 -23.1；Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro

Claude Opus 4.7 稳定性 Smoke 评测诚信评级波动

2026年6月7日 302

原创

Claude Opus 4.8深夜崩盘！5月6日凌晨2:30“Service is busy”刷屏，全球开发者代码梦碎

2026年5月6日美国时间凌晨2:30，Anthropic旗舰模型Claude Opus 4.8突发大规模“Service is busy”错误。开发者使用Claude Code进行代码生成、调试、补全时，连续遭遇服务中断，界面弹出“云朵被

Claude Opus 4.8 AI服务故障服务繁忙 Claude Code宕机

2026年6月6日 496

测评

9模型并列主榜77.5，代码执行满分材料约束却只剩50

今日Smoke轻量评测显示，9款主流模型主榜并列77.5分，代码执行全部拿到100分，材料约束却集体停留在50分，仅文心一言和Claude Sonnet 4.6掉队，暴露当前模型在严格材料遵循上的集体短板。

代码执行材料约束 Claude Opus 4.7 Smoke评测

2026年6月5日 321

原创

AI代理成科技热议焦点：多模态与企业自动化间的兴奋与现实鸿沟

近期X平台上，AI代理（AI Agents）迅速成为科技讨论的最热话题。从多模态能力扩展到企业级自动化应用，业界充满期待，但现实中技术成熟度、部署挑战与实际效果之间仍存在明显差距。本文将客观分析这一趋势的背景、核心进展及其对产业的影响，帮助

AI代理多模态自动化

2026年6月4日 202

原创

Alphabet 筹集 850 亿美元加码 AI，Google 业务迎来资本新高潮

Alphabet 宣布以创纪录规模筹集 850 亿美元资金，专项投入 Google AI 业务发展。此举凸显资本对人工智能领域的持续高投入，预计将加速模型训练、基础设施建设及产品落地，同时加剧与微软、OpenAI 等竞争对手的角力。行业观察

Alphabet Google AI AI funding

2026年6月4日 214

原创

Anthropic提交IPO文件，标志AI从炒作迈向企业实用

Anthropic正式提交IPO文件，标志着生成式AI正从概念炒作阶段转向企业级实用工具。市场对此反应积极，反映出投资者对AI商业化前景的乐观预期。本文将深入分析这一事件对行业格局、企业应用及监管环境的影响，探讨AI技术如何逐步融入主流商业

Anthropic IPO enterprise AI

2026年6月4日 259

原创

xAI因Grok生成性化图像遭英国议员起诉引发AI内容安全争议

英国议员近日起诉xAI公司，指控其AI模型Grok生成性化图像，引发关于人工智能伦理与内容安全的广泛讨论。该案件可能对AI行业监管产生深远影响，凸显技术发展与社会责任之间的平衡挑战。

xAI Grok AI伦理

2026年6月4日 227

原创

台积电CEO看好AI芯片需求半导体产业迎来强劲增长周期

台积电首席执行官表示，人工智能芯片需求持续强劲，未来几年增长前景乐观，此言论推动半导体相关股票上涨，成为过去24小时AI行业焦点。文章深入分析TSMC在AI领域的布局、对全球供应链的影响以及行业未来趋势。

TSMC AI芯片半导体

2026年6月4日 264

原创

AI泡沫担忧重现互联网泡沫：微软与OpenAI循环营收模式引市场争议

近期科技圈大V热议AI是否存在泡沫，指出微软与OpenAI之间的循环营收模式与dot-com时代高度相似，引发股市波动与行业广泛讨论。文章客观分析双方商业逻辑、潜在风险及对投资者的影响，强调需理性看待AI发展，避免盲目乐观或恐慌。

AI泡沫 OpenAI 科技泡沫

2026年6月4日 204

原创

Cloudflare报告：AI代理流量首超人类，互联网未来或迎剧变

Cloudflare最新数据显示，AI代理生成的网络流量首次超过人类用户，远超此前预测。这一现象引发行业广泛讨论，Cloudflare CEO Matthew Prince等大V积极参与，探讨agentic AI的快速增长及其对互联网架构、

AI agents bot traffic Cloudflare

2026年6月4日 455

测评

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 349

原创

Project Solara 深读：微软为「agent-first 设备」另起炉灶，以及它绕开 Windows 的真正原因

微软在 Build 2026 发布 Project Solara——面向 agent-first 设备、不运行传统应用的芯片到云端平台。它将系统底座建在 Android(MDEP)而非 Windows 之上,以 Agent Shell 动态

Microsoft Project Solara agent-first AI 操作系统

2026年6月3日 533

原创

WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top

WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instructio

WDCD AI benchmark instruction decay multi-turn

2026年6月3日 311

测评

Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升，Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑，Claude Opus 4.7重返并列第一，揭示prompt敏感度与模型更新对守约能力的

WDCD 守约测试 AI模型评估周期变化

2026年6月3日 468

原创