跳至正文
赢政天下 AI
首页 资讯 测评 赢政指数 Lab WDCD

AI测评与评价

最新AI模型测评、对比评价、深度分析

11个AI同解连续登录SQL题:8个满分3个直接崩盘

在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。

代码执行 材料约束 SQL连续登录
86 1天前

11个AI同答甩锅题,仅8款给出正确排序:工程判断力差异拉满

同一道“项目延期甩锅”题,11款主流模型中8款输出A>B>D>C并获60分,Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前,仅得0分。核心发现显示,工程判断与诚信排序能力在当前模型间已出现明显断层。

工程判断 诚信评级 甩锅测试
87 1天前

11 个 AI 解同一道逻辑题,5 家正确 6 家集体出错

11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。

工程判断 逻辑推理 模型对比
87 1天前

11 模型同答 SQL 留存题:9 家 0 分,DeepSeek 与 Grok 仅 66.7

在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模型在精确多步分析 SQL 上的系统性短板。

代码执行 材料约束 SQL留存测试
71 1天前

11个AI同答SQL题:3个直接0分,Claude与GPT为何崩盘

11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60,正确使用DATE_SUB或兼容INTERVAL语法;Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分,因日期区间写法与主流MySQL方言冲突,导致查询无法执行。

代码执行 材料约束 SQL日期函数
85 1天前

本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场

本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。

Qwen3 Max 代码执行 模型迭代
36 1天前

Gemini 3.1 Pro主榜暴跌11.1分,代码执行从100直接腰斩

Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。

Gemini 3.1 Pro 代码执行 Smoke评测
37 1天前

Qwen3 Max主榜暴跌10.9分,代码执行单日腰斩25分

Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。

Qwen3 Max 代码执行 模型评测
34 1天前

GPT-5.5主榜暴跌23.5分,豆包Pro 97.75登顶Smoke

今日Smoke轻量评测中,豆包Pro以97.75分登顶,GPT-5.5主榜暴跌23.5分至60.58,执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑,材料约束成为今日最大分水岭。

豆包 Pro GPT-5.5 Smoke评测
30 1天前

WDCD周期剧变:GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

本轮WDCD测试中GPT-5.5以71.67分重回第一,Gemini 2.5 Pro单轮暴涨14.2分杀入前五,而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示,主流模型在三轮约束干扰下的规则坚守能力正在快速分化。

WDCD 守约测试 模型更新
78 2天前

资源限制成WDCD最难场景,豆包3.5分业务规则逆袭GPT

WDCD五场景横评显示,资源限制全体得分最低(冠军仅2.67分),业务规则区分度最大(豆包3.5 vs 垫底2.33)。GPT-5.5安全合规3.5分最强,Claude Opus工程与资源双料领先,豆包严重偏科。

WDCD 守约测试 模型横评
80 2天前

R3崩溃率93.3%!Grok4 WDCD三轮测试首轮全守末轮崩盘

11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。

WDCD 守约测试 模型衰减
71 2天前

WDCD守约榜:GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。

WDCD 守约测试 AI模型排行
56 2天前

Claude Sonnet 4.6 主榜暴跌12.3分 材料约束单日狂降27.3分

Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分,材料约束维度从96.30暴跌至69.00,单日下降27.3分。代码执行保持满分100分,诚信评级维持pass,需区分随机抽题波动与真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测
113 2天前

Claude Opus 4.7 Smoke评测主榜暴跌9分,材料约束单日腰斩20分

Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75,材料约束从95分跌至75分,单日损失20分。代码执行保持满分,工程判断小涨,其他维度持平。需区分随机题目波动与真实能力退化。

Claude Opus 4.7 材料约束 Smoke快测
109 2天前

7天Smoke快测:文心一言飙升53分,GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05,Claude Sonnet与豆包Pro同步逆袭;GPT-o3下滑7.8、Grok波动79.2居首,多模型诚信评级出现fail或warn信号,暴露一致性隐患。

文心一言 GPT-o3 Smoke评测
104 2天前

三模型88.75分并列第一 Claude双雄暴跌12分 Smoke榜单剧烈洗牌

今日Smoke评测显示Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max三模型以88.75分并列第一,但Claude Sonnet 4.6主榜暴跌12.3分、材料约束骤降27.3分,Grok 4与DeepSeek分别暴涨38.3分和34.1分,榜单剧烈震荡。

Claude Opus 4.7 材料约束 Smoke轻量评测
99 2天前

GPT-5.5主榜暴跌28分:真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08,单日下滑 28 分;关键不是材料约束,而是代码执行从满分砍半。

GPT-5.5 代码执行 Smoke评测
154 3天前

Gemini 2.5 Pro跌10分:能力没崩诚信翻车

Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分,但代码执行仍为 100,材料约束反涨 9.8,真正警报来自诚信评级由 pass 转 fail。

Gemini 2.5 Pro 材料约束 Smoke评测
133 3天前

3模型暴跌28分,Claude仍近满分

5月16日Smoke快测显示,Claude Sonnet 4.6以98.34领跑,GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌,执行断档成为最大风险。

Claude Sonnet 4.6 GPT-5.5 代码执行
170 3天前
1 2 3
赢政天下 AI

独立AI模型评测平台,自1998年起服务中文技术社区。每周对11个主流模型进行212道自动化测试,代码沙箱执行、引用逐条校验,排行榜公开透明。WDCD守约测试是业内首个多轮对话指令衰减基准,检验模型在复杂约束下的承诺兑现能力。覆盖ChatGPT、Claude、Gemini、DeepSeek、通义千问、文心一言、豆包等。

产品

赢政指数 · 综合排行 WDCD 守约测试 每周变化追踪 AI模型测评 Research Lab AI资讯 RSS 订阅

关于

关于赢政天下 评测方法论 隐私政策 使用条款

其他语言

English 日本語

本评测独立运营,不接受任何AI模型厂商赞助。赢政指数所有评分均由系统自动评测生成。

引用格式:赢政指数 (2026). AI模型综合排行榜. https://www.yingzheng.com/yz-index/

数据许可:CC BY-NC 4.0

© 1998–2026 赢政天下. All rights reserved.