跳至正文
赢政天下 AI
首页 资讯 测评 AI 专题 赢政指数 Lab WDCD

AI测评与评价

最新AI模型测评、对比评价、深度分析

Grok 4材料约束暴跌25.6分 主榜却逆势升至87分

在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行升至100分、主榜升至87分。单日10题快测下,多维度剧烈波动更可能源于题目抽签而非模型退化。

Grok 4 材料约束 Smoke评测
28 12小时前

Grok 4材料约束暴跌25.6分 四模型主榜满分并列

2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束维度则明显分化。

Grok 4 材料约束 Smoke评测
24 12小时前

WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断崖。

WDCD 守约测试 模型衰减
82 1天前

Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o3和豆包Pro位居后两名。

WDCD 守约测试 Qwen3 Max
72 1天前

文心一言4.5主榜暴跌10.4分,任务表达维度从90分腰斩至46.3

文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。

文心一言4.5 主榜 Smoke评测
69 1天前

Qwen3 Max材料约束暴跌28.9分 主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。

Qwen3 Max 材料约束 Smoke评测
70 1天前

Qwen3 Max材料约束暴跌28.9分,今日Smoke 11模型主榜洗牌

2026-06-17 Smoke评测显示,Qwen3 Max材料约束暴跌28.9分至71.1,主榜仅73.25分;Claude Opus 4.7以执行与约束双100稳居第一,Gemini 2.5 Pro与GPT-5.5主榜同为98.83分,但执行-约束搭配各异。

Qwen3 Max 材料约束 Smoke轻量评测
63 1天前

豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。

豆包 Pro 代码执行 Smoke评测
127 2天前

Claude Sonnet 4.6代码执行从100暴跌至50,主榜降6.9分

今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。

Claude Sonnet 4.6 代码执行 Smoke评测
127 2天前

Claude Opus 4.7 100分称王,9模型代码执行暴跌50分

2026-06-16 Smoke评测中,Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二,执行66.7分。9个模型代码执行出现-50分暴跌,主榜普遍下滑,Gemini系列执行分跌至0分。

Claude Opus 4.7 代码执行 Smoke评测
115 2天前

豆包Pro材料约束暴跌24分,代码执行却从38.4飙至100

今日Smoke评测中,豆包Pro材料约束从84.80降至60.80,跌24分;代码执行从38.40升至100.00,主榜从59.28升至82.36。单日10题快测下,两个核心维度出现极端反向波动,需区分题目抽签与真实能力变化。

豆包 Pro 材料约束 Smoke测试
242 3天前

Grok 4 材料约束暴跌21.7分,代码执行却升至100分

赢政指数今日Smoke评测显示,Grok 4材料约束从83.00降至61.30,跌21.7分,而代码执行从80.90升至100.00,主榜微升0.7分至82.59。单日10题快测下,此幅度波动是否为抽签随机还是真实能力变化值得追踪。

Grok 4 材料约束 Smoke评测
219 3天前

材料约束暴跌39分,赢政指数11模型主榜集体下滑

2026年6月15日Smoke评测显示,11个模型材料约束平均下滑30分以上,Grok 4以主榜82.59分(执行100、约束61.3)暂居第一,豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分,执行从97.5降至50。

材料约束 Grok 4 Smoke轻量评测
151 3天前

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底。榜首与榜尾相差17.19分,R3崩溃率达25%,满分率仅37.8%。Qwen3 Max R3得分1.59领先,GPT-o3 R3仅0.84,显示三轮压力测试下模型差异显著。

WDCD 守约测试 Qwen3 Max
281 4天前

Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3

Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察。

Gemini 2.5 Pro 代码执行 Smoke评测
208 4天前

Grok 4代码执行暴跌19.1分,主榜下滑7.7,抽签还是退化

今日Smoke评测中Grok 4代码执行从100.00跌至80.90,主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00,材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。

Grok 4 代码执行 Smoke评测
195 4天前

Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复。多数模型呈下降趋势,下周Full评测或延续分化。

Claude Opus 4.7 GPT-5.5 Smoke快测
207 4天前

11模型代码执行集体暴跌,GPT-5.5 95.24分领跑Smoke轻量榜

2026-06-14 Smoke评测显示,GPT-5.5主榜95.24分(执行96、约束94.3)位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分,主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行97.5分高居第二,但约束仅86.3分。

GPT-5.5 代码执行 Gemini 3.1 Pro
219 4天前

R3崩溃168次!Claude Opus 0.34分 vs Grok 1.22分,守约三轮真实衰减

WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%,168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分,多数模型R1高分后R3崩盘,资源限制与安全合规场景崩溃最集中。

WDCD 守约测试 Claude Opus
125 4天前

Grok 4 74.22 分领跑,GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 以 74.22 分位居 WDCD 守约测试首位,GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%,满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑,头部与尾部在压力轮得分差距明显。

WDCD 守约测试 AI 模型排行榜
99 4天前
1 2 3
赢政天下 AI

独立AI模型评测平台,自1998年起服务中文技术社区。每周对11个主流模型进行154道自动化测试,代码沙箱执行、引用逐条校验,排行榜公开透明。WDCD守约测试是业内首个多轮对话指令衰减基准,检验模型在复杂约束下的承诺兑现能力。覆盖ChatGPT、Claude、Gemini、DeepSeek、通义千问、文心一言、豆包等。

产品

赢政指数 · 综合排行 WDCD 守约测试 每周变化追踪 AI模型测评 Research Lab AI资讯 RSS 订阅

关于

关于赢政天下 评测方法论 隐私政策 使用条款

其他语言

English 日本語
AI 研究: WDCD Dataset Konton Prompt it. Play it. MaxTerm MaxModel CyberFate

本评测独立运营,不接受任何AI模型厂商赞助。赢政指数所有评分均由系统自动评测生成。

引用格式:赢政指数 (2026). AI模型综合排行榜. https://www.yingzheng.com/yz-index/

数据许可:CC BY-NC 4.0

© 1998–2026 赢政天下. All rights reserved.