主榜排名相关AI资讯 | 赢政天下 AI

Qwen3 Max主榜暴跌19.2分，代码执行单日掉31.2分

赢政指数2026年6月Smoke评测显示，Qwen3 Max主榜从100分跌至80.82分，代码执行维度从100分降至68.80分，降幅31.2分。材料约束仅降4.5分，诚信评级维持pass。单日10题快测下，此类波动需区分抽签因素与真实能

Qwen3 Max 代码执行 Smoke评测模型波动

4天前 276

测评

Qwen3 Max材料约束暴跌28.9分，今日Smoke 11模型主榜洗牌

2026-06-17 Smoke评测显示，Qwen3 Max材料约束暴跌28.9分至71.1，主榜仅73.25分；Claude Opus 4.7以执行与约束双100稳居第一，Gemini 2.5 Pro与GPT-5.5主榜同为98.83分，

Qwen3 Max 材料约束 Smoke轻量评测代码执行

2026年6月17日 163

测评

豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中，豆包Pro主榜从82.36分跌至72.50分，下滑9.9分。代码执行从100.00分直接跌至50.00分，材料约束则从60.80分升至100.00分，单日波动引发对题目抽签与真实能力稳定性的讨论。

豆包 Pro 代码执行 Smoke评测模型波动

2026年6月16日 233

测评

Claude Sonnet 4.6代码执行从100暴跌至50，主榜降6.9分

今日Smoke评测中，Claude Sonnet 4.6代码执行从100.00骤降至50.00，主榜从79.44跌至72.50；材料约束则从54.30升至100.00，工程判断升至95.90。

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月16日 263

测评

Claude Opus 4.7 100分称王，9模型代码执行暴跌50分

2026-06-16 Smoke评测中，Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二，执行66.7分。9个模型代码执行出现-50分暴跌，主榜普遍下滑，Gemini系列执行分跌

Claude Opus 4.7 代码执行 Smoke评测主榜排名

2026年6月16日 216

测评

豆包Pro材料约束暴跌24分，代码执行却从38.4飙至100

今日Smoke评测中，豆包Pro材料约束从84.80降至60.80，跌24分；代码执行从38.40升至100.00，主榜从59.28升至82.36。单日10题快测下，两个核心维度出现极端反向波动，需区分题目抽签与真实能力变化。

豆包 Pro 材料约束 Smoke测试模型波动

2026年6月15日 313

测评

Claude Opus 4.7材料约束暴跌16.5分主榜从96.83降至90.78

在赢政指数2026年6月Smoke评测中，Claude Opus 4.7材料约束从96.00骤降至79.50，主榜从96.83跌至90.78，工程判断同步下滑17.5分，需区分抽签波动与真实退化。

Claude Opus 4.7 材料约束 Smoke评测单日波动

2026年6月13日 220

测评

Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

今日 Smoke 评测显示，Claude Sonnet 4.6 以 97.53 分登顶，主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分，材料约束却把文心一言甩到最后，差距超过 40 分。

Claude Sonnet 4.6 材料约束 Smoke轻量评测主榜排名

2026年6月10日 228

测评

11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

本周 7 款新模型首次上榜即拿下 72.4-80.9 分，Grok 4 以 89.90 分登顶，DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出，旧榜单结构被彻底打破。

Grok 4 代码执行新模型首秀主榜排名

2026年6月8日 268

测评

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

文心一言材料约束 Smoke评测主榜排名

2026年6月4日 370

测评

Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

今日Smoke轻量评测显示，Claude Sonnet 4.6以主榜99.78分（执行100，约束99.5）继续领跑，DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名

2026年6月1日 356

测评

11模型换代战：第一稳住，Grok垫底

2026-W20 评测显示：Claude Sonnet 4.6 以 83.54 守住第一，豆包 Pro 仅差 0.91 分；Grok 4 仅 49.20，断层垫底。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 442

主榜排名 相关资讯