赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
最新资讯
查看全部 →AI精神错乱?科技CEO的狂热辩论
在最新一期《Equity》播客中,TechCrunch编辑们围绕科技CEO是否“特别容易陷入AI精神错乱”展开激烈辩论。所谓AI psychosis,指部分高管对人工智能的极端乐观或恐惧言论,脱离了理性讨论框架。本文梳理了辩论核心观点,并分
土耳其如何用科技“攻占”全球植发市场
土耳其凭借从专用电机到机器学习算法的持续创新,构建了价值数十亿美元的植发产业。本文深入解析该国如何通过精密器械、AI辅助设计和自动化流程重塑毛发移植技术,并分析其成功背后的产业生态与全球竞争力。
哈佛毕业演讲呼吁杀死AI 引发支持者反智指责与文化转向辩论
美国时间2026年5月27日,喜剧演员Ronny Chieng在哈佛毕业典礼上呼吁“你们这代使命是杀死AI”,现场获热烈掌声。该言论迅速引发两极反应:AI支持者认为其极端反智,反对者视作文化转向信号。辩论在两天内成为行业焦点,凸显公众对AI
软银豪掷750亿欧元,法国将建巨型数据中心
软银集团宣布将投资高达750亿欧元,在法国建设并运营多达5吉瓦(GW)的新增数据中心容量。此举旨在响应欧洲日益增长的云计算和AI算力需求,同时巩固法国的数字基础设施地位。该投资计划预计在未来十年内分阶段实施,将是欧洲历史上最大的单一数据中心
Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
R3崩溃率高达60%!11模型WDCD三轮测试集体翻车
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
Groq推进新一轮融资 与Nvidia合作扩展AI推理云服务
Groq公司正积极寻求新一轮融资,同时与Nvidia展开合作以扩展其AI推理云服务。此举标志着AI芯片领域竞争进一步加剧,吸引了市场广泛关注。分析人士认为,这将推动推理计算基础设施的创新与发展,对整个AI生态系统产生深远影响。
Figure 03人形机器人突破200小时连续运行 具身智能迈向规模化应用
Figure公司最新人形机器人Figure 03成功实现200小时不间断运行,这一技术突破标志着具身智能从实验室展示阶段转向规模化应用。文章分析其技术原理、行业影响及未来挑战,探讨机器人与AI深度融合对制造业、服务业的潜在变革。
中国三体计算星座建成 全球首个太空AI算力平台上线
全球首个整轨互联太空计算星座正式建成,在轨算力达到5P OPS,可支持1400亿参数模型运行。目前已部署11个AI模型,包括最大天基遥感模型,实现模型在轨部署与更新。这一突破标志着中国在太空计算领域取得重大进展,为未来卫星互联网和空间智能应
2026全球AI算力报告发布:芯片多元演进与绿色集群引领新格局
天津博览会发布《2026全球AI算力报告》,指出AI芯片正从GPU向TPU、NPU多元演进,算力中心迈入超大规模绿色集群阶段。报告强调AI工作站与服务器升级将支撑词元经济及国家战略布局,十大趋势涵盖能效优化、边缘计算融合及国际合作等,为全球
深度横评
查看全部 →Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
R3崩溃率高达60%!11模型WDCD三轮测试集体翻车
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
WDCD 守约排行
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
查看完整守约排行 →
Research Lab
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。