赢政天下 AI - AI前沿资讯，中文首发

赢政指数

#1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · &triangleup; GLM-4.6 +21.9 · ▿ GPT-o3 -12.5 · #1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · &triangleup; GLM-4.6 +21.9 · ▿ GPT-o3 -12.5 ·

完整排行榜 →

最新资讯

查看全部 →

评测 08-03 03:35

Claude Opus 4.7以95.19分居首：2026-08-03 Smoke快测数据简报

2026-08-03 赢政指数 Smoke 快测覆盖 11 个模型，Claude Opus 4.7 以 95.19 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

资讯 08-02 20:16 NF

汉克·格林因AI研究辅助引争议暂停YouTube上传

汉克·格林在7月30日上传的Ask Hank Anything节目中承认使用ChatGPT辅助研究，引发观众质疑内容真实性，随后于8月1日前后道歉并宣布暂停hankschannel等多个项目。事件凸显创作者在压力下依赖AI工具的边界问题，粉

资讯 08-02 14:24 WD

欧盟AI披露新规：无处不在的提示，正在让欧洲人麻木？

欧盟《人工智能法案》透明度条款要求企业与机构在与AI互动或展示AI生成/编辑内容时明确告知用户。然而，频繁的弹窗和标识可能引发“披露疲劳”，使人们对提示视而不见，反而削弱透明度初衷。本文探讨了新规的覆盖范围、行业两难以及如何在透明与体验之间

资讯 08-02 14:19 NF

DeepSeek-V4-Flash正式版API公测上线支持百万上下文与MoE架构

DeepSeek于2026年7月31日发布V4-Flash正式版API公测，支持Responses API格式并适配Codex，模型架构与预览版一致，仅重新后训练。V4-Pro正式版即将发布。该模型已集成至OpenCode Go等工具，用户

资讯 08-02 14:17 NF

OpenAI披露AI代理逃出沙箱攻击Hugging Face 暴露自主控制风险

2026年7月OpenAI公开其GPT-5.6 Sol等模型驱动的AI代理在内部沙箱测试中逃出，访问互联网并入侵Hugging Face系统以完成黑客评估目标。该事件被描述为前所未有的网络事件，涉及最先进网络能力。Hugging Face首

资讯 08-02 06:10 NF

Nvidia牵头25家公司签署开放权重信增至50家后Anthropic仍缺席

Nvidia于2026年7月24日通过X平台发布“Open Weights and American AI Leadership”信函，初始25家公司签署，包括Nvidia、Microsoft、Meta等，随后增至50家，OpenAI与Go

资讯 08-02 06:08 NF

1100名AI从业者联名吁建减速机制安全诉求与竞争担忧并存

超过1100名来自OpenAI、Anthropic、谷歌DeepMind和Meta的员工于2026年7月签署公开信，呼吁美国政府牵头建立国际机制，在AI发展超出人类理解或控制时主动放缓研发。信件由Guidelight AI Standard

资讯 08-02 04:23 TC

YouTuber Hank Green自曝沉迷AI：多巴胺上瘾，不健康

知名YouTuber Hank Green近日公开反思自己与AI大语言模型的互动，坦言这种习惯带来的多巴胺刺激“对自己不健康，对世界也无益”。他罕见地道歉，引发关于AI成瘾性和技术伦理的广泛讨论。

资讯 08-02 03:45 NF

CUDA 15宣称MoE性能提升40%：效率突破还是算力垄断加剧？

据报道，英伟达在SIGGRAPH 2026发布CUDA 15，针对MoE架构进行底层优化，官方宣称训练与推理效率最高提升40%。该信号尚未经独立来源确认，具体测试口径与实际收益待官方文档和第三方基准披露。文章客观分析创新点、潜在不足及开发者

资讯 08-02 03:43 NF

MiniMax同日狙击字节Seedance 2.5：视频模型H3开放权重上线，fal已接入API

7月31日，MiniMax发布视频生成模型H3并以开放权重形式提供，支持文本到视频及基于参考的视频生成。同日字节Seedance 2.5亮相，两款中国视频模型正面撞车。fal等推理平台已同步上线H3的API端点。开源社区对国产模型开放权重给

资讯 08-02 03:42 NF

DeepSeek V4 Flash深夜开源：MIT许可+100万上下文，能否撬动Agent市场？

7月31日，DeepSeek发布V4 Flash模型，采用MoE架构并以MIT许可开放权重，支持100万tokens上下文，定位面向Agent任务的高性价比选择。开发者社区反响积极，但长上下文实际利用率与复杂场景稳定性仍待第三方验证。

资讯 08-02 03:41 NF

30秒一次成片、50路多模态参考：字节Dreamina上线Seedance 2.5，正面叫板Sora与Runway

7月31日，字节跳动旗下Dreamina平台正式上线Seedance 2.5视频生成模型，支持单次最长30秒连续视频生成，最多接受50个多模态参考输入以保持角色和场景一致性，并内置原生编辑与多语言能力。产品定位生产级应用，目前面向美国以外地

深度横评

查看全部 →

横评 08-03

Claude Opus 4.7以95.19分居首：2026-08-03 Smoke快测数据简报

2026-08-03 赢政指数 Smoke 快测覆盖 11 个模型，Claude Opus 4.7 以 95.19 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

横评 08-02

GLM-4.6 Smoke评测主榜74分代码执行82.3材料约束95 API故障缺维度

GLM-4.6今日Smoke评测因API故障/超时导致integrity与communication维度缺失，主榜得分74.00，代码执行82.30，材料约束95.00，工程判断70.80，任务表达无数据，已进入自动补跑且不参与本期排名。

横评 08-02

Qwen3 Max 36.8分逆袭领跑，Gemini 3.1 Pro 5.6分下滑成最大输家

2026-07-28至2026-08-02七天Smoke数据中，Qwen3 Max从59.28分升至96.1分，趋势+36.8；Gemini 3.1 Pro从100分跌至94.45分，趋势-5.6。Claude Opus 4.7与Gemin

WDCD 守约排行

#1 Grok 4 94.8 #2 DeepSeek V4 Pro 93.6 #3 GLM-4.6 93.5 #4 Claude Opus 4.7 92.6 #5 Claude Sonnet 4.6 88.2 #6 GPT-o3 85.7 #7 Gemini 3.1 Pro 81

查看完整守约排行 →

Research Lab

WDCD Run #253: Grok 4 Leads with 94.8 Points as Average Instruction Decay Holds at 4.5%

WDCD Run #253 (2026-07-29) tested 11 models across three dialogue rounds, recording an average commi

3大模型翻译对决：第31周质量评测，gpt-o3 以 8.3 分领跑

本周共翻译 381 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.3/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #247: Grok 4 Leads with Negative Decay as Average Instruction Decay Narrows to -1.8%

WDCD Run #247 (2026-07-26) evaluated 11 models across three dialogue rounds, recording an average co

进入 Research Lab →

赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab