长上下文相关AI资讯 | 赢政天下 AI

WDCD实测：长上下文不是保险箱，而是更长的遗忘现场

上下文窗口变长不等于约束更安全。Run #105出现59例R1=1→R2=1→R3=0的衰减，Gemini 3.1 Pro的R2满分却R3骤降至0.4，记住规则和执行规则是两回事。没有优先级管理的长上下文只会让关键约束被更多材料淹没。

GPT-o3在最新评测中遭遇滑铁卢：长上下文得分暴跌33.5分，5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流，暴露出OpenAI基础设施的严重短板。

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。

Moonshot AI发布Kimi K1.5模型，支持128K长上下文，在数学基准测试中超越GPT-4。中文用户测试火爆，X平台互动超8万次，得益于免费试用和隐私保护，该模型助力Moonshot在国内AI市场份额显著提升。

Moonshot AI推出的Kimi聊天机器人新版支持超长上下文和多模态交互，中文处理能力领先全球。在X和微博上互动量破百万，用户誉为‘国产GPT杀手’。这一发布标志着中国本土AI加速崛起，下载量激增，挑战国际巨头格局。

据泄露文件，Google Gemini 2.0即将发布，将集成视频生成能力和超长上下文窗口，基准测试或超越OpenAI o1模型。X平台科技博主热议不断，相关帖子引用量破10万，引发Google反超野心的广泛讨论，并刺激AI投资热潮。

Moonshot AI推出的Kimi k1.5模型支持200万字上下文长度，在中文长文理解基准测试中超越Gemini 1.5，引发X平台超2万条讨论。用户分享法律合同解析等案例，凸显其解决企业文档分析痛点的潜力，助力中国AI在长序列处理领域