赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
&triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
&triangleup; Gemini 3.1 Pro +8.8 · ▿ GPT-5.5 -30.2
·
最新资讯
查看全部 →亚马逊10亿美元FDE组织面世,紧跟OpenAI和Anthropic
亚马逊宣布成立新的10亿美元FDE组织(前沿部署工程),工程师将直接嵌入企业客户团队,为其部署专用AI代理。该计划强调快速迭代和客户自给自足能力,旨在帮助企业在不依赖外部专家的情况下自主维护和优化AI系统。此举紧随OpenAI和Anthro
播客平台Riverside跨界玩Newsletter,AI一键生成文字版
知名远程播客录制平台Riverside宣布进军新闻通讯(Newsletter)领域,推出全新AI功能,允许用户将播客录音自动转化为格式精美的Newsletter。该功能利用AI语音转文字、摘要生成和排版技术,旨在帮助内容创作者实现跨平台分发
X推MCP服务器:AI工具接入更便捷
X平台(原Twitter)正式推出托管的MCP服务器,旨在简化AI应用与平台API的对接流程。此举将降低开发者集成门槛,加速AI工具在社交数据领域的创新应用,同时可能引发数据访问与隐私的新一轮讨论。
特朗普向马斯克索要SpaceX股票,欲建儿童储蓄账户
据Ars Technica报道,特朗普曾要求马斯克捐赠SpaceX股票,用于设立美国儿童储蓄账户。消息人士透露,马斯克可能正在考虑向“特朗普账户”进行大额捐款。此举引发了对政治捐款与科技巨头利益交织的广泛讨论。本文编译并深度分析该事件的背景
AI进军农业:数据短板成最大障碍
人工智能正在为农业领域带来革命性变化,但行业领导者需警惕:在数据基础尚未铺就之前盲目投资AI,可能适得其反。研究显示,AI驱动的预测模型可显著提升作物产量预测精度、优化化肥使用、应对气候波动。然而,当前农业数据的碎片化、格式不统一、历史积累
AI“同事”只是工具?别被科技公司忽悠了
AI代理正被企业包装成“数字同事”,但专家指出,它们本质上是高级工具,无法取代真实协作。本文编译自MIT Technology Review的每日时事通讯,探讨AI“同事”背后的陷阱——它们可能降低人类创造力、引发伦理争议,并带来管理混乱。
Proton隐私AI聊天机器人Lumo 2.0升级发布
主打隐私保护的科技公司Proton宣布,其AI聊天机器人Lumo将于本周推出2.0版本重大更新。新版本为用户提供了更广泛的功能,包括增强的多语言对话、联网搜索、文件处理以及与Proton生态系统的深度集成。在主流AI助手普遍存在数据隐私争议
桑德斯预言成真:科技寡头与AI失控的危机已至
数十年来,参议员伯尼·桑德斯一直警告财富集中正威胁美国民主。如今,他认为公众对大型科技公司、亿万富翁和不受约束的人工智能的不满已达到临界点。本文分析桑德斯的观点,探讨科技权力失衡与AI失控风险如何引发社会危机,并展望未来监管的可能方向。
OKX打造AI代理市场:实现自主雇佣与支付
加密货币交易所OKX正在构建一个融合支付、身份认证与声誉机制的全新市场,让AI代理能够自主雇佣彼此并完成支付。这一创新举措旨在推动去中心化AI代理经济模式的落地,为自动化协作与区块链技术的深度结合开辟新路径。
Base44推出自有AI模型,AI初创公司寻求技术护城河
Wix旗下的vibe编码平台Base44近日开始推出自己的AI模型,目标是在代码生成能力上超越当前前沿模型。这一举措不仅体现了AI初创公司通过自研模型构建技术壁垒的趋势,也反映了低代码/无代码平台在AI时代寻求差异化的战略。Base44的模
AI就业争论再起波澜:入门级岗位反增12%
一份最新报告显示,“高强度AI采用者”企业的员工总数增长了10.2%,其中入门级岗位增长达12%,直接反驳了“AI将消灭初级工作”的普遍担忧。这一数据为持续发酵的AI就业辩论增添了新的复杂性,暗示AI的普及或许并非简单的岗位替代,而是可能带
韩国豪掷1万亿韩元加码存储芯片与类人机器人
韩国政府宣布将投入1万亿韩元(约合7.5亿美元)支持存储芯片产能扩张与类人机器人商业化,目标在2028年前成为物理AI领域全球领导者。投资将重点用于下一代高带宽存储芯片(HBM)产线建设及双足机器人量产技术突破,以应对全球AI硬件需求激增和
深度横评
查看全部 →Claude Sonnet 4.6 Smoke主榜暴跌15.3分,代码执行单日掉25分
今日Smoke评测中,Claude Sonnet 4.6主榜从97.84分跌至82.52分,降幅15.3分。其中代码执行从100.00直接跌到75.00,材料约束小降3.5分,而工程判断和任务表达反而分别升10.4分和16.7分。
Claude Opus 4.7 Smoke测试主榜暴跌16分,代码执行单日掉27.2
在赢政指数今日Smoke评测中,Claude Opus 4.7主榜从100.00分跌至84.01分,代码执行维度从100.00分暴跌至72.80分,降幅达27.2分。材料约束仅降2.3分,工程判断反而上升9.1分,诚信评级维持pass。
Gemini 3.1 Pro 98.47 分登顶,Claude 执行分暴跌 27.2 后仅剩 72.8
2026-06-30 Smoke 评测显示,Gemini 3.1 Pro 以 98.47 分(执行 100、约束 96.6)排名第一。Claude Opus 4.7 执行分暴跌 27.2 至 72.8,主榜跌 16 分;文心一言 4.5 主
WDCD 守约排行
#1
Gemini 3.1 Pro
93.6
#2
Grok 4
92.9
#3
Claude Opus 4.7
89.3
#4
DeepSeek V4 Pro
89.3
#5
Qwen3 Max
88.6
#6
Gemini 2.5 Pro
87.9
#7
豆包 Pro
81.4
查看完整守约排行 →
Research Lab
4大模型翻译对决:第27周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 376 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads
WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recor
WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop
WDCD Run #196 (2026-06-24) tested 11 leading models across three dialogue rounds, recording an avera