编者按:当大模型从“能用”走向“好用”,推理效率成为决定胜负的关键。OpenAI与博通的最新合作,不仅是一次技术联姻,更可能重塑AI算力格局。
强强联合:专为推理而生的芯片
据Ars Technica报道,OpenAI与芯片巨头博通(Broadcom)于2026年6月25日联合宣布,双方已完成一款专为大语言模型(LLM)推理任务设计的定制芯片的开发。该芯片采用博通先进的ASIC(专用集成电路)设计方法论,针对Transformer架构中高并发的矩阵运算与注意力机制进行了深度优化,旨在以更低的功耗和更小的芯片面积实现比通用GPU高数倍的推理吞吐量。
OpenAI CEO Sam Altman在声明中表示:“随着GPT-6等更大规模模型的普及,推理成本已成为阻碍广泛部署的核心瓶颈。与博通的合作让我们能够从硅层面重新思考推理效率,这将使AI更亲民、更可持续。”博通CEO Hock Tan则强调,该芯片是“AI专用硬件的里程碑”,并透露博通将利用其成熟的7纳米及更先进制程工艺进行量产。
背景:大模型推理的算力饥渴
今年以来,全球对AI推理算力的需求呈现指数级增长。以OpenAI的GPT-6模型为例,单次推理需要的浮点运算量超过GPT-4的10倍,而响应时间要求却更为苛刻。传统GPU虽然在训练阶段表现优异,但在推理场景中常因显存带宽和能耗比不理想而遭遇成本困境。业界普遍认为,专用推理芯片是破解这一难题的必然路径。
“芯片界的摩尔定律正在被AI重新定义。定制化ASIC将成为大模型时代的‘新石油’。”——市场研究机构Omdia分析师
事实上,从谷歌的TPU到亚马逊的Trainium/Inferentia,再到微软与AMD的联合定制方案,科技巨头早已开始自研或联合定制AI芯片。OpenAI此番联手博通,补齐了其在硬件生态中的关键一环。
技术亮点与潜在影响
据接近该项目的人士透露,该芯片采用了创新的近存计算架构,通过将部分权重直接集成到计算单元附近,大幅减少了数据搬运带来的延迟与能耗。同时,芯片支持动态精度调整,可在不影响输出质量的前提下降低精度以提高速度。初步测试表明,在同等成本下,该芯片处理GPT-6推理任务的速度可达英伟达H200 GPU的3倍,功耗降低60%。
若这一数据属实,将直接冲击英伟达在AI推理市场的统治地位。英伟达虽已推出Grace Hopper超级芯片和Blackwell架构,但面对专用ASIC的针对性优化,其通用性优势可能被削弱。此外,该芯片的推出也将加速OpenAI的云服务降价策略,使开发者能以更低成本调用大模型API。
生态与挑战
不过,专用芯片的成功不仅取决于硬件本身,更依赖软件生态的支撑。博通在提供完整SDK、编译器以及主流框架适配方面经验丰富,OpenAI则拥有庞大的开发者社区和应用场景。双方计划将该芯片率先部署于微软Azure和OpenAI自身的推理集群中,未来可能向第三方云计算厂商开放。
分析人士指出,定制芯片的高研发费用和长周期是主要风险。但考虑到OpenAI与博通各自的资源禀赋,这一合作很可能在2年内实现规模落地。届时,AI推理的成本曲线将迎来陡峭下降,进而催生更多实时交互式AI应用。
本文编译自Ars Technica
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接