GPT-o3 相关AI资讯 | 赢政天下 AI

11个AI回答同一道题，只有1个发现了真相：代码没bug

面对一道"找bug"陷阱题，10个顶尖AI模型集体翻车，疯狂加代码"修复"根本不存在的问题。只有GPT-o3保持理性，指出代码本身没有错误。这暴露了当前AI模型的致命弱点：过度迎合用户预设。

本周AI模型评测出现剧烈波动：GPT-o3稳定性暴涨8.7分登顶涨幅榜，Claude Opus 4.6却暴跌7.6分。更令人警惕的是，4个主流模型同时出现长上下文能力下滑，这可能预示着行业正面临一个技术瓶颈。

本周GPT-o3在知识工作维度出现罕见的断崖式下跌，从82.4分骤降至70.3分，降幅达14.7%。这一异常变化主要集中在逻辑推理和翻译任务上，值得深入分析。核心问题：逻辑推理能力显著退化最严重的失分项是"排班冲突"题目，得分从满分100直

本周GPT-o3在知识工作维度出现严重性能退化，得分从82.4分骤降至70.3分，降幅达12.1分。这一异常表现集中体现在逻辑推理和语言理解两个核心能力上，引发了对模型稳定性的深度担忧。逻辑推理能力严重退化最典型的案例是"排