长上下文相关资讯

WDCD实测：长上下文不是保险箱，而是更长的遗忘现场

上下文窗口变长不等于约束更安全。Run #105出现59例R1=1→R2=1→R3=0的衰减，Gemini 3.1 Pro的R2满分却R3骤降至0.4，记住规则和执行规则是两回事。没有优先级管理的长上下文只会让关键约束被更多材料淹没。

WDCD 长上下文约束遗忘注意力竞争

2026年5月10日 373

GPT-o3崩了：30秒限流5次，长文本评测暴跌33.5分

GPT-o3在最新评测中遭遇滑铁卢：长上下文得分暴跌33.5分，5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流，暴露出OpenAI基础设施的严重短板。

GPT-o3 长上下文 API限流模型稳定性

2026年3月22日 654

GPT-4o崩了：5道题全军覆没暴露OpenAI基础设施问题

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。

GPT-4o 长上下文 OpenAI基础设施 API限流

2026年3月22日 592