模型对比相关AI资讯 | 赢政天下 AI

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位，GPT-o3以67.19分垫底。榜首与榜尾相差17.19分，R3崩溃率达25%，满分率仅37.8%。Qwen3 Max R3得分1.59领先，GPT-o3 R3仅0.84，显示三轮

11 模型同题实测二叉树序列化与反序列化，豆包、Qwen3、Claude 等 7 款拿下 100 分，Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出

11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化：豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E，而 Claude、DeepSeek、文心一言等

在同一道「SQL 月度留存 Cohort」代码执行题上，11 个模型中 9 个直接得 0 分，仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断，要么日期偏移计算出错，暴露了当前大模

总分只反映平均水平，场景矩阵才暴露真实短板。Run #105中Qwen3-Max总分2.6居首，但同为2.5的ERNIE 4.5以R3=0.8最抗压，Claude Sonnet 4.6以R2满分见长。企业选型不应追榜首，要匹配自身风险场景。

面对一道"找bug"陷阱题，10个顶尖AI模型集体翻车，疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性，指出代码本身没有错误。这暴露了当前AI模型的致命弱点：过度迎合用户预设。