GPT-o3 相关AI资讯 | 赢政天下 AI

原创

4大模型翻译对决：第26周质量评测，claude-sonnet-4.6 以 9 分领跑

本周共翻译 393 篇文章，覆盖 4 个AI模型。经抽样盲评，claude-sonnet-4.6 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 passthrough deepseek-v4-pro

4小时前 56

测评

GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分，主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分，诚信评级维持pass。单日10题快测下，此类波动是否反映真实退化值得追踪。

GPT-o3 材料约束 Smoke评测单日波动

3天前 164

原创

5大模型翻译对决：第25周质量评测，passthrough 以 9 分领跑

本周共翻译 443 篇文章，覆盖 5 个AI模型。经抽样盲评，passthrough 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 claude-sonnet-4.6 deepseek-v4-pro

2026年6月15日 213

测评

GPT-o3蓄水池采样题100分骤降至0，代码执行真相藏细节

v6评测中GPT-o3主榜上涨7分至82.82，但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分，材料约束提升14分，稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断，暴露算法实现一致性缺陷。

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 189

原创

3大模型翻译对决：第24周质量评测，passthrough 以 9 分领跑

本周共翻译 2425 篇文章，覆盖 3 个AI模型。经抽样盲评，passthrough 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 passthrough deepseek-v4-pro

2026年6月8日 248

原创

3大模型翻译对决：第23周质量评测，gpt-o3 以 9 分领跑

本周共翻译 270 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 claude-sonnet-4.6 deepseek-v4-pro

2026年6月1日 256

测评

文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

今日Smoke轻量评测中，文心一言4.5执行分直接腰斩至50，主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分，Claude Opus 4.7以99.42分继续领跑，材料约束成为拉开差距的关键。

文心一言代码执行 Smoke评测 GPT-o3

2026年5月30日 251

原创

3大模型翻译对决：第22周质量评测，gpt-o3 以 8.3 分领跑

本周共翻译 237 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.3/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 claude-sonnet-4.6 deepseek-v4-pro

2026年5月25日 292

测评

GPT-o3代码执行暴跌42.5分，主榜单日崩18分

GPT-o3今日Smoke评测主榜从76.05跌至58.08，代码执行从90.00直接腰斩至47.50，工程判断也从50跌到10。单日抽题波动虽属正常，但这一量级的断崖式下跌已超出随机范围，值得重点追踪。

GPT-o3 代码执行 Smoke评测模型波动

2026年5月24日 393

测评

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示，GPT-o3主榜暴跌18分至58.08，执行分直接腰斩；豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分，快速挤入前五。GPT-5.5以90.3继续领跑，文心一言诚信评级降至warn。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 305

测评

Grok 4 97.44 分登顶，GPT-o3 主榜暴跌 28 分

今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑，Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分，代码执行从 100 直接腰斩至 50，Claude 两款模型同步崩盘，暴露执行能力严重退化。

Grok 4 代码执行 GPT-o3 Claude 系列

2026年5月19日 237

原创

3大模型翻译对决：第21周质量评测，gpt-o3 以 8.7 分领跑

本周共翻译 242 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.7/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 claude-sonnet-4.6 deepseek-v4-pro

2026年5月18日 353

测评

7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05，Claude Sonnet与豆包Pro同步逆袭；GPT-o3下滑7.8、Grok波动79.2居首，多模型诚信评级出现fail或warn信号，暴露一致性隐患。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 336

测评

GPT-o3一道题从100跌0，主榜反而涨了

GPT-o3 在“矩阵旋转”严格题从 100 分跌到 0，但主榜却从 73.62 升至 75.69。原始 Log 指向一个低级执行失误。

GPT-o3 代码执行严格题 Debug事故

2026年5月11日 373

原创

4大模型翻译对决：第20周质量评测，claude-sonnet-4.6 以 9 分领跑

本周共翻译 215 篇文章，覆盖 4 个AI模型。经抽样盲评，claude-sonnet-4.6 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 deepseek-v4-flash deepseek-v4-pro

2026年5月11日 384

原创

5大模型翻译对决：第19周质量评测，gpt-5.5 以 8.7 分领跑

本周共翻译 240 篇文章，覆盖 5 个AI模型。经抽样盲评，gpt-5.5 综合得分最高（8.7/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 gpt-5.5 gpt-o3

2026年5月4日 550

测评

GPT-o3崩了：31分暴跌背后的致命缺陷

GPT-o3本周可用性暴跌31分，从满分跌至69分。长上下文能力崩盘33.5分，稳定性下降25分。编程能力虽提升23分，但在关键生产场景的表现令人担忧。这不是普通的性能波动，而是架构级的系统性问题。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 709

测评

GPT-o3崩了：不是性能波动，背后的架构级的系统性崩塌

GPT-o3本周稳定性暴跌25分，可用性从100%跌至69%，长上下文能力崩塌33.5分。深度分析显示，这不是简单的性能波动，而是暴露了其架构设计的根本性缺陷。当AI遇到真实工程场景，华丽的benchmark分数瞬间现形。

GPT-o3 稳定性测试模型架构性能退化

2026年3月22日 633

测评

GPT-o3崩了：30秒限流5次，长文本评测暴跌33.5分

GPT-o3在最新评测中遭遇滑铁卢：长上下文得分暴跌33.5分，5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流，暴露出OpenAI基础设施的严重短板。

GPT-o3 长上下文 API限流模型稳定性

2026年3月22日 651

测评

11个AI模型集体暴涨40分：编程测试到底发生了什么？

本周AI模型评测出现罕见异象：11个主流模型的编程得分集体暴涨29-47分，唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化？数据揭示了三个关键信号。

DeepSeek GPT-o3 编程能力测试模型评测异常

2026年3月22日 554

GPT-o3 相关资讯

4大模型翻译对决：第26周质量评测，claude-sonnet-4.6 以 9 分领跑

GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

5大模型翻译对决：第25周质量评测，passthrough 以 9 分领跑

GPT-o3蓄水池采样题100分骤降至0，代码执行真相藏细节

3大模型翻译对决：第24周质量评测，passthrough 以 9 分领跑

3大模型翻译对决：第23周质量评测，gpt-o3 以 9 分领跑

文心一言执行分暴跌50，Smoke轻测今日主榜大洗牌

3大模型翻译对决：第22周质量评测，gpt-o3 以 8.3 分领跑

GPT-o3代码执行暴跌42.5分，主榜单日崩18分

GPT-o3主榜暴跌18分，豆包Pro一日暴涨35.8逆袭前五

Grok 4 97.44 分登顶，GPT-o3 主榜暴跌 28 分

3大模型翻译对决：第21周质量评测，gpt-o3 以 8.7 分领跑

7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

GPT-o3一道题从100跌0，主榜反而涨了

4大模型翻译对决：第20周质量评测，claude-sonnet-4.6 以 9 分领跑

5大模型翻译对决：第19周质量评测，gpt-5.5 以 8.7 分领跑

GPT-o3崩了：31分暴跌背后的致命缺陷

GPT-o3崩了：不是性能波动，背后的架构级的系统性崩塌

GPT-o3崩了：30秒限流5次，长文本评测暴跌33.5分

11个AI模型集体暴涨40分：编程测试到底发生了什么？