文心一言主榜暴跌40.3分,Smoke评测揭露执行约束双崩
2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一,文心一言4.5主榜仅47.98分暴跌40.3分,Gemini 2.5 Pro主榜71.33分大降28分,Qwen3 Max材料约束跌26.7分,执行与
2026-06-22 Smoke评测显示GPT-5.5与GPT-o3主榜100分并列第一,文心一言4.5主榜仅47.98分暴跌40.3分,Gemini 2.5 Pro主榜71.33分大降28分,Qwen3 Max材料约束跌26.7分,执行与
GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分,暴跌20.5分。代码执行从100.00分腰斩至50.00分,材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因,仍需持续观察。
2026-06-20 Smoke轻量评测显示,GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50,主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一,执行与约束双满分。
OpenAI近日推出GPT-5.5 Instant模型,在健康问题处理上达到前沿思考模型水平。该模型在紧急护理识别、上下文询问和不确定性解释方面表现突出,每周服务2.3亿用户。医生主导的评估推动了模型迭代,免费用户即可使用,高互动量引发业界
2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复
2026-06-14 Smoke评测显示,GPT-5.5主榜95.24分(执行96、约束94.3)位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分,主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行
2026-06-13 Smoke评测显示11个模型中10个代码执行满分,材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一,GPT-5.5材料约束跌至66分,主榜仅84.7分。豆包Pro主榜单日上涨23.
今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢
今日Smoke评测中,Claude Opus 4.7与GPT-5.5并列主榜第一(92.53分),代码执行均满分,材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底,材料约束仍是区分顶级模型的核心变量。
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
本周Smoke数据显示,DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分,均值跌至79.8和75;GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频
GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3,涨幅29.7分领跑;GPT-o3 则从94.51 断崖下跌至58.08,降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题,DeepSeek V4
今日Smoke轻量评测中,豆包Pro以97.75分登顶,GPT-5.5主榜暴跌23.5分至60.58,执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑,材料约束成为今日最大分水岭。
GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。
GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08,单日下滑 28 分;关键不是材料约束,而是代码执行从满分砍半。
5月16日Smoke快测显示,Claude Sonnet 4.6以98.34领跑,GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌,执行断档成为最大风险。
2026年5月12日Smoke评测显示,GPT-5.5和GPT-o3并列主榜第一85.69分,但文心一言主榜暴涨24.7分却诚信降为Fail;Gemini系列暴跌超14分,多模型约束维度崩盘,揭示AI稳定性隐忧。
OpenAI 推出 GPT-5.5 及 Pro 版本,支持 100 万 Token 上下文窗口和内置计算机使用能力,同时发布 GPT Image 2 和 Agents SDK 更新。此举被视为 2026 年 AI 工具链关键升级,但广告自助
本周共翻译 240 篇文章,覆盖 5 个AI模型。经抽样盲评,gpt-5.5 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
OpenAI发布GPT-5.5 'SPUD'模型,专注于代理性能力,在多步骤工作流程中达到人类水平的85%。这标志着AI从回答问题向自主完成任务的关键转变,将深刻影响企业AI应用方式。