赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
&triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
&triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2
·
最新资讯
查看全部 →GLM-4.6 材料约束 25 分 代码执行 88.7 分 诚信探针归零
GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分,代码执行 88.70 分、材料约束 25.00 分,诚信评级 fail(探针 0.00)。该模型在 42 个金丝雀探针中全部触发,显示其将虚构
豆包 Pro 与 Gemini 3.1 Pro并列88.54分:2026-07-05 Smoke快测数据简报
2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。
Anthropic指控阿里巴巴用2.5万假账户提取Claude模型能力
Anthropic于2026年6月10日致信美国参议员,指控阿里巴巴通过近2.5万个虚假账户在4月22日至6月5日期间生成超过2880万次Claude交互,针对代理推理、软件工程等核心能力实施蒸馏攻击。相比此前三家中国实验室合计1600万次
阿里内部封杀Claude Code:高风险管理引科技圈震动
据TechCrunch报道,阿里巴巴已将Anthropic旗下的AI编程工具Claude Code列为高风险软件,禁止员工使用。此举反映出中国科技巨头在数据安全和合规方面的严格管控,也凸显中美AI生态的进一步割裂。本文深度解析事件背景、行业
Midjourney要求好莱坞披露AI使用细节
在一场针对三家好莱坞工作室的持续法律纠纷中,AI图像生成公司Midjourney正试图迫使这些工作室公开其自身使用人工智能的具体方式。此举旨在揭示这些工作室在指控Midjourney侵犯版权的同时,是否也在依赖AI技术进行内容创作。本文深度
揭秘Mistral AI:对标OpenAI的开源新贵
Mistral AI作为2023年成立的法国AI初创公司,凭借开源模型和巨额融资迅速崛起,挑战OpenAI的霸主地位。本文深度解析其技术路线、融资历程与行业影响,探讨“让前沿AI惠及每个人”的愿景能否实现。
今年你只需这一份AI术语指南
随着人工智能技术的爆发,大量新术语和俚语涌入日常交流。从基础概念如大语言模型、生成式AI,到前沿热点如智能体、对齐、检索增强生成,本文为你梳理2026年最值得关注的AI词汇。无论你是技术新手还是资深从业者,这份术语表都能帮你快速掌握关键定义
Meta肯尼亚承包商伪装未成年账号测试ChatGPT等AI安全引发伦理争议
Wired曝光Meta通过肯尼亚承包商雇用数百人,伪装未成年账号向ChatGPT、Gemini发送自杀、自残、儿童剥削提示,测试安全漏洞。该操作被Meta称为负责任基准测试,但引发伦理争议与竞争指控。文章分析测试原理、实际执行效果及行业影响
浏览器战局转向:Chrome和Safari的最佳替代品
浏览器战争的焦点已从搜索引擎之争转向隐私、性能和AI集成。本文盘点当前挑战Chrome和Safari地位的几款优秀替代浏览器,包括Brave、Firefox、Arc、Vivaldi等,分析其独特优势与适用场景,帮助用户根据自身需求做出更明智
OpenAI讨论向美国政府提供5%股权,方案仍处早期
据英国《卫报》援引金融时报报道,OpenAI 正处于早期讨论阶段,可能向美国政府提供约 5% 股权,以探索让公众分享 AI 经济收益的机制。该设想仍属概念方案,可能需要国会批准。
微软MAI-DxO诊断系统研究表现亮眼,但尚未临床落地
微软 MAI Diagnostic Orchestrator 在 NEJM 复杂病例研究中达到约 80% 至 85.5% 的诊断准确率,高于受限条件下医生组约 20% 的表现。但该系统仍处研究阶段,不能直接等同临床可用产品。
Meta筹备Meta Compute,拟出租富余AI算力
MarketWatch 报道称,Meta 正准备通过名为 Meta Compute 的云服务出租富余算力。消息传出后,CoreWeave 和 Nebius 股价下跌,市场担心大型平台从客户变成云算力竞争者。
深度横评
查看全部 →GLM-4.6 材料约束 25 分 代码执行 88.7 分 诚信探针归零
GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分,代码执行 88.70 分、材料约束 25.00 分,诚信评级 fail(探针 0.00)。该模型在 42 个金丝雀探针中全部触发,显示其将虚构
豆包 Pro 与 Gemini 3.1 Pro并列88.54分:2026-07-05 Smoke快测数据简报
2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。
SGLang 的智能体辅助开发初探
SGLang 团队总结了智能体在高性能推理框架开发中的初步实践:将 CUDA 调试、性能分析、扩散模型接入、基准测试、生产事故复盘等流程沉淀为可执行的 SKILL.md、脚本和评审闭环,让 Agent 不再只写代码,而是按工程协议持续收集证
WDCD 守约排行
#1
Grok 4
91.2
#2
Gemini 3.1 Pro
79.1
#3
GPT-o3
76.6
#4
Claude Opus 4.7
72.2
#5
GLM-4.6
71.8
#6
Claude Sonnet 4.6
70
#7
DeepSeek V4 Pro
67.8
查看完整守约排行 →
Research Lab
WDCD Run #211: Grok 4 Leads with Just -13% Instruction Decay as GPT-o3 Collapses at -75%
WDCD Run #211 (2026-07-03) benchmarked 11 models on multi-turn commitment integrity, with Grok 4 tak
WDCD Run #207: Average Instruction Decay Hits -66.3% Across 11 Models, Grok 4 Leads Field
WDCD Run #207 (2026-07-01) measured multi-turn commitment across 11 frontier models, recording an av
4大模型翻译对决:第27周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 376 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。