top of page

OpenAI 与 Broadcom 达成 100 亿美元协议,计划明年构建专有 AI 加速器

为什么 OpenAI 与 Broadcom 的专有 AI 加速器交易现在很重要

金融时报报道称,OpenAI 和 Broadcom 已达成一项约 100 亿美元的交易,设计并生产专有 AI 加速器,预计明年投产. 表面上看,这是一个供应协议,但其影响波及模型性能、资本分配以及更广泛的 AI 硬件生态系统。对 OpenAI 而言,此举有望更严格地控制运行其最大生成模型的堆栈;对 Broadcom 而言,这是快速进入高利润、快速演进的半导体领域的途径,该领域为现代 AI 提供动力。

这一宣布正值硬件繁荣之际。训练和服务大型基础模型的经济学提升了加速器架构的影响力:即使在能效或吞吐量方面的小幅改进,也能为以超大规模运行模型的组织节省数百万美元。定制 AI 芯片的兴起——专为神经网络而非通用图形或计算设计的硅——正在重塑云提供商、企业 AI 团队和研究实验室的供应商关系和采购策略。

在本文中,我将剖析这笔交易及其对 AI 加速器市场的意义,解释将塑造 Broadcom-OpenAI 芯片的技术和设计选择,揭示监管风险,并探讨这可能如何挑战现有 GPU 供应商。您还将看到对明年投产目标的运营障碍的评估,以及一个简明的常见问题解答,以回答读者可能提出的最紧迫问题。

洞见:领先 AI 实验室加上主要芯片制造商的 100 亿美元硬件承诺,加速了行业从现成 GPU 转向针对大型语言模型优化的定制系统的转变。

AI 加速器市场背景、增长和预测

AI accelerator market context, growth and forecasts

塑造 AI 加速器市场的增长驱动因素

为机器学习模型的训练和推理提供动力的加速器市场已进入快速扩张期。需求来自多个来源:超大规模云提供商扩展模型部署、企业将生成式 AI 嵌入客户界面和工作流,以及将推理推向边缘设备(功率和热约束迫使采用更专业的硅)。

行业研究团体估计,未来十年 AI 加速器市场将达到数十亿美元的高增长规模。这一预测反映了几个驱动因素的复合年增长:更大模型的爆炸式计算需求、大规模运行推理的经济学,以及模型部署期间降低每 token 成本的追求。随着计算成为 AI 服务的主要运营成本,提供更高每瓦吞吐量或更好内存效率的架构可以解锁实质上更好的单位经济学。

与此同时,垂直化 AI 应用——从实时对话代理到多模态助手——创造了与游戏或通用计算不同的需求。这些需求青睐支持高内存带宽、高效稀疏操作和 transformer 模型中定制矩阵乘法原语的硅。因此,实验室、云提供商和芯片制造商对“定制 AI 芯片”的兴趣日益加速。

从通用 GPU 到基于小芯片的专用加速器

行业正在超越 GPU(最初为图形设计)成为神经网络工作负载默认选项的时代。如今的讨论集中在架构权衡上:片上内存应包含多少、哪种互连拓扑最能支持模型并行,以及是否使用单片裸片或模块化小芯片组件。

一个有影响力的趋势是采用基于小芯片的 AI 加速器。小芯片是封装在一起形成更大逻辑芯片的较小裸片。这种方法降低了制造风险(较小裸片良率更高),通过混合搭配裸片组件缩短了上市时间,并支持异构集成:配对高带宽内存小芯片、计算小芯片和针对特定功能优化的 I/O 小芯片。结果是模块化扩展——设计人员可以添加更多计算小芯片以提高吞吐量,而无需重新设计单片晶圆级裸片。

基于小芯片的方法还便于迭代改进。当一个裸片需要工艺节点升级或专用加速器块时,工程师可以更换该小芯片,同时保持其他组件不变。这种灵活性对专有 AI 加速器很有吸引力,因为开发周期压缩且性能目标不断变化。

定制 AI 芯片的预测和采用率

预计超大规模提供商、大型 AI 实验室甚至寻求差异化的 OEM 将加速采用定制 AI 芯片。分析师已开始模拟一个分化的未来:通用 GPU 的基础层用于广泛工作负载,以及针对特定模型或推理模式优化的定制加速器的增长层。市场报告预测,随着模型规模扩大和软件生态系统成熟,专用加速器的份额将上升

OpenAI-Broadcom 等合作伙伴关系充当采用加速器:它们为领先模型开发者创建了一条紧密共同设计硬件和软件的路径,证明了其他大型参与者的案例。如果定制硅实现其支持者所期望的效率提升,预算将从通用 GPU 池转向匹配工作负载到最适合硬件的异构机群——不是一夜之间,而是迅速转变。

关键要点:AI 加速器市场不仅在规模上扩大,而且在架构和采购模式上多样化,为新进入者和定制联盟创造了空间。

OpenAI Broadcom 协议的细节、时间表和财务条款

Details of the OpenAI Broadcom agreement, timeline and financial terms

报道的交易要点和时间

金融时报报道了 OpenAI Broadcom 协议的 100 亿美元规模和时间,生产目标为明年。标题数字代表一项可能融合设计、工具、制造和早期批量采购的大型多年承诺。虽然公开细节仍然有限,但报道的时间表——从交易宣布到大约一年内投产——表明双方都在积极推进。

投资规模表明 OpenAI 购买的不仅仅是一次性窄范围加速器运行;相反,这似乎是试图确保长期产能并共同开发针对 OpenAI 不断演进的模型架构定制的硅。对 Broadcom 而言,该交易提供了一个大型锚定客户和资本,以投资设计资源和实现激进时间表所需的制造合作伙伴关系。

OpenAI 和 Broadcom 的战略目标

OpenAI 的动机 straightforward:减少对外部芯片提供商的依赖,确保对关键硬件的可预测访问,并获得优化跨硬件、编译器和模型架构的模型性能的杠杆。拥有通往定制硅的路径使 OpenAI 能够调整内存层次结构、指令集和互连,以适应基于 transformer 的模型的特定通信模式——可能提高吞吐量、降低延迟并减少每 token 的能耗。

对 Broadcom 而言,该合作伙伴关系是进入 AI 半导体的加速器。Broadcom 历史上专注于网络、存储和基础设施硅,在系统级集成、高速 I/O 和企业销售渠道方面拥有能力。该合作提供了一条扩展到 AI 加速器高增长领域并从被 GPU 现有厂商主导的利润丰厚市场中分一杯羹的途径。

商业和运营影响

如果时间表得以维持,企业和云买家将面临新的采购动态。OpenAI 可以选择将硬件访问与模型订阅捆绑,根据新加速器提供差异化性能层级。这将把价值链的一部分从通用云商品化转向垂直集成的服务产品。

在运营上,在超大规模部署新加速器机群会改变数据中心设计:配电、冷却、机架布局和网络拓扑可能需要调整。供应链物流——采购 HBM 堆栈、先进封装和可靠晶圆厂——将面临满足所需产量的压力。还有集成成本:将训练管道移植到新硅上、重新训练编译器以及在新硅上验证模型都需要工程团队和时间。

洞见:将大型可信客户绑定到芯片制造商会压缩设计和制造的经济学,但会提高快速、无 bug 部署的运营风险。

技术设计考虑、小芯片架构和强化学习优化

Technical design considerations, chiplet architectures and reinforcement learning optimization

专有 AI 加速器的硬件权衡

设计现代 AI 加速器涉及吞吐量(每秒多少操作)、延迟(产生单个结果的时间)和内存层次结构(可以多快、多大量数据在计算附近访问)之间的权衡。对于生成模型,内存带宽和片上 SRAM 大小通常与原始计算一样重要,因为 transformer 层需要快速移动大型张量。

基于小芯片的 AI 加速器提供了一种平衡这些权衡的方法。通过划分功能——将计算密集型矩阵引擎放在一个小芯片上、高带宽内存放在另一个小芯片上、I/O/互连放在第三个小芯片上——设计人员可以优化每个部分,然后通过添加更多计算小芯片进行扩展。这种模块化有助于实现高聚合吞吐量,同时控制裸片尺寸并提高良率。

互连拓扑是另一个关键轴。对于跨数千个加速器的模型并行,将芯片连接在一起的结构的延迟和带宽可能限制扩展。高速网络和封装内硅链路的进步与算术单元本身同样重要。

用于芯片优化的强化学习

硬件设计一直是一个优化问题,但最近的研究表明机器学习技术——尤其是强化学习 (RL)——可以加速和改进设计选择。学术工作展示了针对基于小芯片架构的 RL 驱动合成和布局,允许自动探索设计排列。在实践中,这意味着使用 RL 代理提出布局、路由甚至人类设计人员可能不会考虑的微架构参数设置。

当集成异构小芯片时,RL 可能特别有用:将内存小芯片相对于计算小芯片放置的位置、如何路由高带宽链路以及哪些组件共置的搜索空间是巨大的。RL 优化循环可以比手动迭代更有效地探索该空间,缩短设计时间并改善功耗性能权衡。

然而,RL 不是万能药。它需要准确的仿真环境来预测真实硅行为,以及与产品目标对齐的稳健奖励函数(例如,每次推理的能耗、裸片面积、延迟百分位)。良好的仿真保真度和运行这些优化循环的大量计算是先决条件。

共同设计硬件、模型和工具链

最大的性能增益来自硬件设计和模型架构共同开发。这种共同设计方法——将指令集、内存层次结构和编译器优化与模型需求对齐——可以针对特定工作负载产生数量级的每瓦性能改进。

对于 OpenAI 和 Broadcom,集成将涉及演进软件工具链:高效将 transformer 操作映射到加速器的编译器、管理跨小芯片内存的运行时系统,以及确保正确性和可重复性的基准套件。将 Broadcom 硅集成到 OpenAI 的模型堆栈中将需要专门的软件工程,以及仔细验证以避免模型行为的回归。

降低集成风险的实际步骤包括分阶段推出(原型板、小规模训练运行)、用于可重复性能测试的开放工具,以及允许模型在需要时回退到通用 GPU 的互操作层。

大胆的要点:没有成熟编译器和运行时的硬件是未充分利用的硬件——与软件共同设计对于实现定制 AI 芯片的承诺至关重要。

竞争影响,OpenAI Broadcom 定制芯片如何挑战 Nvidia 主导地位

Competitive implications, how the OpenAI Broadcom custom chips challenge Nvidia dominance

为什么内部加速器可能颠覆市场

当领先模型开发者采用内部加速器时,某些类别工作负载对第三方 GPU 的需求可能会显著减少。这种动态类似于我们在云网络和存储中看到的情况:具有独特需求的大型客户通常垂直集成以确保性能和成本优势。如果 OpenAI 证明定制硅实质上降低了其最苛刻工作负载的每 token 成本或延迟,其他实验室和超大规模提供商将注意到并考虑类似路径。

这并不保证现有 GPU 市场立即崩溃。相反,预计将转向更异构的格局,GPU 仍将主导通用工作负载,而专用加速器处理最大、最昂贵的任务。

Broadcom 的优势及其需要构建的内容

Broadcom 带来了系统级专业知识、企业销售渠道和复杂高速芯片的经验。这些优势可以加速可信 AI 加速器的上市时间。此外,Broadcom 与数据中心运营商和 OEM 的现有关系可能有助于物流和部署。

然而,该公司需要加速其软件生态系统和面向开发者的工具,以与根深蒂固的 GPU 供应商竞争,尤其是 Nvidia,其 CUDA 生态系统和庞大的开发者基础是主要竞争护城河。构建稳健的编译器支持、分析工具和针对 transformer 优化的库将与实现原始硅性能的同等重要。

超大规模提供商和 OEM 可能如何回应

超大规模提供商是务实的买家:他们对冲。可能的回应包括多元化供应商、加速自己的定制硅计划,或深化与芯片供应商的合作伙伴关系。许多大型云提供商已经设计了定制 AI 加速器(或有计划这样做),以控制成本和确保产能。OEM 和系统集成商将密切关注基准结果;早期的性能胜利可能导致针对专用工作负载的快速 OEM 采用。

价格竞争是另一个杠杆。如果 Broadcom 和类似新进入者提供具有成本效益的高性能替代方案,GPU 供应商可能会以激进定价或新功能路线图回应。市场可能分化为大型 AI 工作负载的专用提供商和更广泛开发者生态系统的通用 GPU。

洞见:竞争动态将由软件和生态系统势头以及硅性能共同决定;没有赢得开发者的芯片是得不偿失的胜利。

挑战、解决方案以及对 OpenAI、Broadcom 和 AI 硬件行业的战略影响

Challenges, solutions and strategic implications for OpenAI, Broadcom and the AI hardware industry

明年交付的关键技术和市场挑战

在一年的时间表上交付生产级加速器是一项雄心勃勃的工程壮举。主要挑战包括:

  • 制造规模化和良率:先进封装和 HBM 堆栈引入了可能破坏量产的良率风险。

  • 软件成熟度:编译器、运行时和框架必须达到生产级,以避免模型回归。

  • 集成风险:将大规模训练和推理管道移植到新硅上需要大量验证。

  • 供应链约束:在紧张的市场中确保先进节点、封装和测试产能可能困难。

  • 性能披露:早期的公开基准将塑造市场认知,但很难公平和可重复地产生。

这些挑战因在迁移工作负载的同时保持实时服务的正常运行时间而加剧。

潜在解决方案和缓解策略

几种务实方法可以降低风险并加速交付:

  • 共同设计和仿真:密集仿真和 RL 驱动的探索可以减少硅流片的迭代。

  • 分阶段推出:从推理优化变体或有限训练集群开始,然后扩展到更广泛的训练机群。

  • 与晶圆厂和 OSAT 合作:利用 Broadcom 的供应商关系来确保封装和测试产能。

  • 兼容层:构建运行时回退,以便模型在特定硬件路径失败时可以在 GPU 上运行。

  • 开放透明的基准测试:发布标准化性能套件以建立信任并帮助客户规划过渡。

使用强化学习和仿真工具可以缩短设计周期,而分阶段部署降低了“大爆炸”迁移的运营风险。

AI 硬件格局的长期战略情景

在未来几年内,三种广泛的结果是合理的:

  • 多供应商专用格局:几个强大的定制加速器供应商共存,每个都针对特定模型类别或工作负载优化。

  • 围绕少数主导供应商的整合:资本和生态系统效应导致少数公司控制大部分生产和软件生态系统。

  • 混合共存:GPU 仍然是通用引擎的基线,而定制芯片处理最大的模型,导致异构数据中心。

每种情景对企业买家都有不同的影响。多元化的供应商市场有利于采购灵活性和价格竞争;整合增加了供应商关系战略重要性,并可能加速大型 AI 实验室的垂直整合。

大胆的要点:最重要的战场可能不是每瓦原始 FLOPS,而是硬件、软件和开发者生态系统共同演进的速度。

常见问题解答:OpenAI Broadcom 专有 AI 加速器,读者常见问题

1. OpenAI 和 Broadcom 到底达成了什么协议?

金融时报报道称,OpenAI 和 Broadcom 达成了一项约 100 亿美元的协议,设计和制造专有 AI 加速器,预计明年投产。该交易似乎涵盖设计、工具和初始生产承诺,尽管详细合同条款和范围仍为私有。

2. 这些芯片会完全取代 Nvidia GPU 吗?

不会。定制加速器不太可能立即取代所有工作负载的 Nvidia GPU。预计分阶段迁移和工作负载专业化:GPU 将继续用于通用训练和开发者工作流,而定制芯片针对最大、最昂贵的工作负载。随着时间的推移,混合模型是最可能的结果。

3. 定制加速器将如何影响 AI 模型性能和成本?

当设计与模型特性紧密匹配时,定制加速器可以提高能效、降低延迟并降低每次推理或训练步骤的边际成本。然而,收益取决于成功的共同设计和成熟的软件工具链;移植和验证模型的过渡成本可能很大。

4. OpenAI 依赖 Broadcom 硬件有哪些风险?

有。集中供应引入了风险:制造故障、软件兼容性问题或监管约束可能影响运营。OpenAI 可以通过回退策略、分阶段推出和合同保障来缓解这些风险。

5. 其他 AI 实验室可以跟进自己的芯片吗?

可以,大型实验室和超大规模提供商可以遵循这种模式,有些已经在这样做。主要障碍是资本密集度、软件生态系统开发以及获得先进封装和晶圆厂产能。与成熟芯片制造商的合作伙伴关系——如与 Broadcom——是一种常见途径。

6. 这将如何改变云和企业购买决策?

云和企业买家可能会转向混合采购策略,将 GPU 与专用加速器结合。预计会出现针对特定模型类型和性能层级的硬件即服务等产品,以及对基准测试和互操作性的更多关注。

7. 投资者和企业买家接下来应该关注什么?

关注生产里程碑、经过验证的公开基准、合作伙伴生态系统公告和监管指导。这些信号将表明新硬件可以多快扩展,以及它是否能提供承诺的成本和性能优势。

展望未来:OpenAI Broadcom 专有 AI 加速器对定制 AI 芯片未来的信号

Looking ahead: what OpenAI Broadcom proprietary AI accelerators signal for the future of custom AI chips

OpenAI-Broadcom 的承诺具体化了多年来一直在形成的趋势:计算是现代 AI 的战略轴心,对该计算的控制是差异化的途径。通过转向定制硅,OpenAI 实际上是在押注长期节省和性能优势超过前期投资和集成复杂性。

在未来 12-24 个月内,行业将密切关注几个信号。首先,生产里程碑和良率报告将告诉我们时间表是否现实。其次,可重复的性能基准——由中立方或标准化套件发布——将揭示新硅是否为生成模型带来了现实世界的收益。第三,软件堆栈的成熟度将决定开发者采用:编译器、工具和库中的最小摩擦将使客户和合作伙伴的过渡决策更容易。最后,监管和地缘政治发展可能塑造芯片的制造地点和供应链的结构方式。

存在一种架构达尔文主义:最能将硬件、软件和服务经济学对齐的设计将繁衍。如果 Broadcom 和 OpenAI 成功,他们可能不仅仅是从现有 GPU 供应商那里分得一杯羹;他们可能催化整个行业向优先考虑共同优化堆栈的垂直合作伙伴关系转变。对于企业而言,这意味着超越原始计算小时数,思考最重要工作负载的每美元性能。

同时,不确定性仍然存在。市场采用不仅取决于硅:开发者生态系统、互操作性标准和全球供应稳定性都将塑造结果。来自 GPU 现有厂商的竞争回应——包括定价、功能路线图和生态系统投资——也将产生影响。

对于从业者和决策者,实际的短期行动很明确:准备评估异构机群,创建针对您工作负载的基准标准,并投资能够桥接硬件和模型工程的技能。对于政策制定者,该交易突显了鉴于 AI 硬件的双重商业和战略意义,澄清出口管制和安全框架的必要性。

洞见:这笔交易是转折点还是值得注意的实验,取决于执行——取决于定制 AI 芯片是否能在规模上提供可重复的、软件支持的收益——而不仅仅是美元数字。

OpenAI Broadcom 合作伙伴关系之所以具有催化作用,是因为它将领先 AI 实验室的产品需求与主要芯片制造商的资源对齐。这种对齐很可能加速定制 AI 芯片的采用,加剧 AI 加速器市场的竞争,并迫使现有厂商和新进入者重新思考竞争优势的来源。关注明年里程碑将告诉我们这是 AI 硬件中构造性重组的开始,还是更长、更复杂故事的第一章。

 
 

免费开始

一款本地优先的AI助手,具备个人知识管理功能

为了获得更好的人工智能体验,

remio 目前仅支持Windows 10+ (x64)M-Chip Mac

在你的大脑里添加一个搜索栏

Ask remio

记住一切

​无需整理

bottom of page