Grok 4 相关AI资讯 | 赢政天下 AI

测评

Grok 4 趋势上涨19.8分领跑 Smoke 周报，Gemini 系列波动超28分

赢政指数 2026-W25 Smoke 7 天数据显示，Grok 4 趋势上涨 19.8 分至 100，DeepSeek V4 Pro 均值 98.7 分保持领先；Gemini 2.5 Pro 与 Gemini 3.1 Pro 波动分别达

Grok 4 Gemini 2.5 Pro Smoke 周趋势模型波动分析

4天前 222

测评

Grok 4材料约束暴跌25.6分主榜却逆势升至87分

在赢政指数今日Smoke评测中，Grok 4材料约束从96.70分跌至71.10分，降幅25.6分，但代码执行升至100分、主榜升至87分。单日10题快测下，多维度剧烈波动更可能源于题目抽签而非模型退化。

Grok 4 材料约束 Smoke评测单日波动

2026年6月18日 192

测评

Grok 4材料约束暴跌25.6分四模型主榜满分并列

2026-06-18 Smoke评测中，Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分，导致主榜仅87分，与满分模型差距13分。执行维度11模型中有10个满分，约束

Grok 4 材料约束 Smoke评测执行与约束

2026年6月18日 197

测评

Grok 4 材料约束暴跌21.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Grok 4材料约束从83.00降至61.30，跌21.7分，而代码执行从80.90升至100.00，主榜微升0.7分至82.59。单日10题快测下，此幅度波动是否为抽签随机还是真实能力变化值得追踪。

Grok 4 材料约束 Smoke评测单日波动

2026年6月15日 303

测评

材料约束暴跌39分，赢政指数11模型主榜集体下滑

2026年6月15日Smoke评测显示，11个模型材料约束平均下滑30分以上，Grok 4以主榜82.59分（执行100、约束61.3）暂居第一，豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分，执行从97

材料约束 Grok 4 Smoke轻量评测主榜波动

2026年6月15日 210

测评

Grok 4代码执行暴跌19.1分，主榜下滑7.7，抽签还是退化

今日Smoke评测中Grok 4代码执行从100.00跌至80.90，主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00，材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。

Grok 4 代码执行 Smoke评测主榜波动

2026年6月14日 254

测评

R3崩溃168次！Claude Opus 0.34分 vs Grok 1.22分，守约三轮真实衰减

WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%，168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分，多数模型R1高分后R3崩盘，资源限制与安全合规场景崩溃最集中。

WDCD 守约测试 Claude Opus Grok 4

2026年6月14日 216

测评

Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 以 74.22 分位居 WDCD 守约测试首位，GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%，满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑，头部与尾部在压力轮得分差距明显。

WDCD 守约测试 AI 模型排行榜 R3 崩溃率

2026年6月14日 162

测评

11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

本周 7 款新模型首次上榜即拿下 72.4-80.9 分，Grok 4 以 89.90 分登顶，DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出，旧榜单结构被彻底打破。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 268

测评

Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升，Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑，Claude Opus 4.7重返并列第一，揭示prompt敏感度与模型更新对守约能力的

WDCD 守约测试 AI模型评估周期变化

2026年6月3日 488

测评

Grok 4材料约束暴跌21.3分，代码执行却暴涨50，主榜反升17.9

Grok 4今日Smoke评测材料约束从80.3骤降至59，主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常，但-21.3分降幅超出历史均值，需观察是否为真实能力退化。

Grok 4 材料约束 Smoke评测模型波动

2026年5月23日 360

测评

材料约束集体暴跌20分，Grok 4 81.55分险胜Claude登顶

今日Smoke评测显示，11款主流模型材料约束维度普遍暴跌18-29分，导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一，但约束仅59分且标warn；豆包Pro主榜暴跌37.2分，执行从高位直接腰斩至50分。核心问题集中在材料约

材料约束 Grok 4 Smoke轻量评测模型波动

2026年5月23日 338

测评

Grok 4 98.34 分登顶，Claude Opus 主榜暴跌 31.3 分

今日 Smoke 轻量评测显示，Grok 4 以 98.34 分领跑，代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分，执行分直接腰斩至 38.1，诚信评级从 pass 转为 warn。Qwen3 Max 紧随其

Grok 4 Claude Opus 代码执行模型波动

2026年5月21日 291

测评

Grok 4 97.44 分登顶，GPT-o3 主榜暴跌 28 分

今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑，Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分，代码执行从 100 直接腰斩至 50，Claude 两款模型同步崩盘，暴露执行能力严重退化。

Grok 4 代码执行 GPT-o3 Claude 系列

2026年5月19日 263

测评

Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

今日Smoke评测中，Claude Opus以89.43分领跑，Grok 4主榜暴跌25.2分执行仅50分；Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险，GPT-o3也崩23.1分，暴露AI稳定性痛点。

Claude Opus Grok 4 AI评测模型暴跌

2026年5月13日 371

测评

11模型换代战：第一稳住，Grok垫底

2026-W20 评测显示：Claude Sonnet 4.6 以 83.54 守住第一，豆包 Pro 仅差 0.91 分；Grok 4 仅 49.20，断层垫底。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 442

Grok 4 相关资讯