SGLang在NVIDIA GTC 2026的高光时刻
SGLang团队携多项活动亮相NVIDIA GTC 2026,包括主旨演讲展示、开源AI专题讨论、动手训练实验室,以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天,五场盛会,聚焦LLM生态核心,汇聚Open
SGLang团队携多项活动亮相NVIDIA GTC 2026,包括主旨演讲展示、开源AI专题讨论、动手训练实验室,以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天,五场盛会,聚焦LLM生态核心,汇聚Open
MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展
GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8,降幅达23.7分。多项核心维度出现断崖式下跌,特别是性价比和稳定性分别下降54.1和52.2分,显示模型在版本更新后出现严重性能退化。
为高效服务大规模 Mixture-of-Experts (MoE) 模型,宽 Expert Parallelism (EP) 策略已成为必需,但其可靠性瓶颈突出:单一硬件故障可能导致整个实例崩溃,重启需数分钟。为此,SGLang 集成 El
MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
赢政指数最新评测显示,豆包Pro稳定性从54.5分骤降至34.7分,跌幅达19.8分。这意味着模型在回答同类题目时表现出严重的不一致性,同样的问题可能得到截然不同的答案,这对需要稳定输出的生产环境构成重大隐患。
强化学习(RL)已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持,AMD GPU用户可以在MI300/350级集群上运行现代RL管道,包括分布式rollout和GRPO训练。
Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分,在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分,但遇到真实故障场景时的表现令人担忧。
GPT-o3本周可用性暴跌31分,从满分跌至69分。长上下文能力崩盘33.5分,稳定性下降25分。编程能力虽提升23分,但在关键生产场景的表现令人担忧。这不是普通的性能波动,而是架构级的系统性问题。
GPT-o3本周稳定性暴跌25分,可用性从100%跌至69%,长上下文能力崩塌33.5分。深度分析显示,这不是简单的性能波动,而是暴露了其架构设计的根本性缺陷。当AI遇到真实工程场景,华丽的benchmark分数瞬间现形。
GPT-o3在最新评测中遭遇滑铁卢:长上下文得分暴跌33.5分,5道关键题目全部因API限流失败。原始日志显示30秒内触发5次限流,暴露出OpenAI基础设施的严重短板。
GPT-4o本周可用性暴跌35分,在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动",它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。
豆包Pro本周稳定性得分暴跌19.8分至34.7分,成为所有维度中唯一负增长指标。通过分析失分题目发现,模型在处理复杂推理、数学计算和代码生成任务时出现明显退化,暴露出可能的模型更新或系统调整问题。
GPT-4o在最新评测中遭遇灾难性崩盘:长上下文得分暴跌21.9分,5道关键题目因API限流全部返回错误,可用性从100%跌至65%。这不是模型能力问题,而是OpenAI基础设施已经撑不住了。
Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分,跌幅达22.8分。深度分析显示,该模型在面对严格测试题时出现系统性失败,暴露出Google在追求性能提升时对工程判断力的忽视。
文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分,成为所有维度中唯一负增长指标。深度分析显示,该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性,暴露出百度在AI工程化能力上的致命短板。
Qwen Max本周评测稳定性维度大幅下跌22.8分,从53.0降至30.2。尽管编程和长上下文能力显著提升,但在多个基础任务上出现严重质量问题,疑似模型版本更新导致的不稳定现象。
Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。
DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分,在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分,但在判断"水能否烧到101度"这种常识问题上竟然失误,暴露出严重的推理一致性问题。