gpt-5.5 相关AI资讯 | 赢政天下 AI

文心一言主榜暴跌40.3分，Smoke评测揭露执行约束双崩

2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一，文心一言4.5主榜仅47.98分暴跌40.3分，Gemini 2.5 Pro主榜71.33分大降28分，Qwen3 Max材料约束跌26.7分，执行与

文心一言材料约束 GPT-5.5 Smoke轻量评测

9小时前 70

测评

GPT-5.5 Smoke评测主榜暴跌20.5分，代码执行从100直降50

GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分，暴跌20.5分。代码执行从100.00分腰斩至50.00分，材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因，仍需持续观察。

GPT-5.5 代码执行 Smoke快测单日波动

2天前 152

测评

GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分

2026-06-20 Smoke轻量评测显示，GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50，主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一，执行与约束双满分。

GPT-5.5 代码执行 Smoke评测执行约束失衡

2天前 133

原创

OpenAI发布GPT-5.5 Instant模型健康领域AI能力显著提升

OpenAI近日推出GPT-5.5 Instant模型，在健康问题处理上达到前沿思考模型水平。该模型在紧急护理识别、上下文询问和不确定性解释方面表现突出，每周服务2.3亿用户。医生主导的评估推动了模型迭代，免费用户即可使用，高互动量引发业界

GPT-5.5 OpenAI health AI

3天前 114

测评

Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

2026-W24 Smoke三天数据显示，Claude Opus 4.7从96.83跌至69.91，GPT-5.5从92.19升至95.24，成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分，诚信评级反复

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 251

测评

11模型代码执行集体暴跌，GPT-5.5 95.24分领跑Smoke轻量榜

2026-06-14 Smoke评测显示，GPT-5.5主榜95.24分（执行96、约束94.3）位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分，主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行

GPT-5.5 代码执行 Gemini 3.1 Pro Smoke评测

2026年6月14日 274

测评

材料约束集体暴跌20分，Claude Opus 4.7 90.78分守住第一

2026-06-13 Smoke评测显示11个模型中10个代码执行满分，材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一，GPT-5.5材料约束跌至66分，主榜仅84.7分。豆包Pro主榜单日上涨23.

Claude Opus 4.7 材料约束 GPT-5.5 Smoke评测

2026年6月13日 183

测评

Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

今日Smoke轻量评测显示，GPT-5.5以92.58分（执行100、约束83.5）继续领跑，豆包Pro紧随其后92.04分。所有前九模型代码执行均满分，排名完全由材料约束拉开，最大差距达19.2分，行业焦点已从“会不会写代码”转向“敢不敢

GPT-5.5 材料约束代码执行满分 Smoke评测

2026年6月9日 271

测评

Claude Opus 4.7与GPT-5.5并列Smoke榜首材料约束成为最大分水岭

今日Smoke评测中，Claude Opus 4.7与GPT-5.5并列主榜第一（92.53分），代码执行均满分，材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底，材料约束仍是区分顶级模型的核心变量。

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测

2026年6月8日 268

测评

GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

今日Smoke轻量评测显示，GPT-5.5以86.95分位居第一，代码执行100分、材料约束71分。所有前七名模型代码执行均满分，排名完全由材料约束决定；Claude Opus 4.7等后四名执行仅50分，整体差距明显。

GPT-5.5 材料约束 Smoke评测代码执行

2026年6月2日 269

测评

Smoke 7天数据：DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

本周Smoke数据显示，DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分，均值跌至79.8和75；GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频

DeepSeek V4 Pro GPT-5.5 诚信评级波动周趋势分析

2026年5月31日 263

测评

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3，涨幅29.7分领跑；GPT-o3 则从94.51 断崖下跌至58.08，降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题，DeepSeek V4

GPT-5.5 稳定性 Smoke评测诚信评级

2026年5月24日 374

测评

GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke

今日Smoke轻量评测中，豆包Pro以97.75分登顶，GPT-5.5主榜暴跌23.5分至60.58，执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑，材料约束成为今日最大分水岭。

豆包 Pro GPT-5.5 Smoke评测主榜波动

2026年5月18日 243

测评

WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

GPT-5.5以71.67分登顶WDCD守约排行榜，Grok 4以52.5分垫底，R3崩溃率高达61.5%，头部模型在三轮压力测试中规则坚守能力远超尾部，差距达19分。

WDCD 守约测试 AI模型排行 GPT-5.5

2026年5月17日 278

测评

GPT-5.5主榜暴跌28分：真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08，单日下滑 28 分；关键不是材料约束，而是代码执行从满分砍半。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 378

测评

3模型暴跌28分，Claude仍近满分

5月16日Smoke快测显示，Claude Sonnet 4.6以98.34领跑，GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌，执行断档成为最大风险。

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束

2026年5月16日 433

测评

AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分

2026年5月12日Smoke评测显示，GPT-5.5和GPT-o3并列主榜第一85.69分，但文心一言主榜暴涨24.7分却诚信降为Fail；Gemini系列暴跌超14分，多模型约束维度崩盘，揭示AI稳定性隐忧。

GPT-5.5 文心一言代码执行材料约束

2026年5月12日 376

原创

OpenAI 发布 GPT-5.5：百万 Token 上下文窗口与 Agents SDK 更新引发广告隐私争议

OpenAI 推出 GPT-5.5 及 Pro 版本，支持 100 万 Token 上下文窗口和内置计算机使用能力，同时发布 GPT Image 2 和 Agents SDK 更新。此举被视为 2026 年 AI 工具链关键升级，但广告自助

openai gpt-5.5 ai-tools

2026年5月6日 2,174

原创

5大模型翻译对决：第19周质量评测，gpt-5.5 以 8.7 分领跑

本周共翻译 240 篇文章，覆盖 5 个AI模型。经抽样盲评，gpt-5.5 综合得分最高（8.7/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

翻译质量 AI模型对比 gpt-5.5 gpt-o3

2026年5月4日 550

原创

OpenAI发布GPT-5.5 'SPUD'：从对话AI向自主代理转型，多步骤任务达人类水平85%

OpenAI发布GPT-5.5 'SPUD'模型，专注于代理性能力，在多步骤工作流程中达到人类水平的85%。这标志着AI从回答问题向自主完成任务的关键转变，将深刻影响企业AI应用方式。

OpenAI GPT-5.5 代理AI 自主智能

2026年4月29日 400

gpt-5.5 相关资讯