← 返回观点 思考

NVIDIA Rubin 重新流片:AMD GPU 产品力值得期待?

富邦报告曝光 Rubin 因 MI450 竞争压力推回重做。从规格对比到 AMD AI infra 全栈分析——硬件架构、软件体系、客户案例、ROCm 生态现状。

2026-06-04思考41 分钟阅读

台湾富邦研究报告曝光:Rubin 首版已 tape-out,但因 MI450 竞争压力推回重做。NVIDIA 做对了什么,又做错了什么?AMD 为什么终于摸到了 NVIDIA 的后视镜?


一、已经在 fab 的芯片,推回来重做

2025 年 8 月,台湾富邦金控研究团队出了一份在半导体圈引起震动的报告。核心信息只有两句话:

"Rubin 第一版已于 6 月底 tape-out,但 NVIDIA 正在重新设计这颗芯片,以更好地应对 AMD 即将推出的 MI450。"

"我们预计下一次 tape-out 时间在 9 月底或 10 月,按这个时间表,Rubin 在 2026 年的出货量将非常有限。"

芯片流片(tape-out)是半导体产品开发中最昂贵的节点之一。先进节点的掩膜版(mask)成本动辄数千万美元。一颗已经流片、正在 TSMC 产线上生产的芯片被拉回来重新设计,意味着上一次 mask 的钱白花了,量产时间至少推迟一个季度。

这种事在行业里不常见,但也不是没发生过。关键问题不是"NVIDIA 有没有能力 respin",而是什么迫使它这么做。

NVIDIA 怎么说?

NVIDIA 的官方回应是标准的"一切按计划进行"——Rubin 仍将在 2026 年发布,年更节奏不变。CFO Colette Kress 此前也确认 Rubin GPU 和 Vera CPU 已经在 TSMC 投片。

但半导体行业有个不成文的规矩:除非延期已经瞒不住了,否则没有公司会承认项目延期。富邦的报告来自台湾供应链的一手信息,可信度不低。

Cadence 的线索

另一条间接证据来自 EDA 厂商 Cadence。EE Times Europe 报道 NVIDIA 正在使用 Cadence 的功耗分析工具对 Rubin 进行重新设计。如果你只是做小修小补,不需要引入新的功耗分析工具链。这暗示 respin 的幅度不小,至少涉及到功耗优化层面的重新布局。

为什么是现在?

时间节点很关键。NVIDIA 在 CES 2026(1 月)和 GTC 2026(3 月)上公布了 Rubin 的详细规格。同时,AMD 在 2025 年底的 Financial Analyst Day 上也亮出了 MI400 系列的底牌。当 NVIDIA 的工程师看到 AMD 那张规格表时,他们大概意识到了一件事:如果 Rubin 按原计划出货,它将在几个关键维度上落后于 AMD。

于是就有了这次 respin。


二、MI450 到底给 NVIDIA 造成了什么压力?

Vera Rubin NVL144 vs AMD Helios:核心规格对比
Vera Rubin NVL144 vs AMD Helios:核心规格对比

先看数据。

维度 NVIDIA Rubin (VR200) AMD MI455X 领先方
制程 TSMC N3 TSMC N2 + N3 chiplet 混合 AMD
晶体管数 336B 320B 接近持平
芯片架构 双 reticle die 单片集成 12 个 chiplet(N2 计算芯 + N3 I/O 芯),3.5D 封装 路线不同,各有取舍
FP4 峰值算力 50 PFLOPS 40 PFLOPS NVIDIA +25%
FP8 峰值算力 ~25 PFLOPS(推算) 20 PFLOPS NVIDIA +25%
HBM4 容量 288 GB(8 stacks × 12-Hi) 432 GB(12 stacks × 12-Hi) AMD +50%
HBM4 带宽 13–22 TB/s(取决于能否拿到 10Gbps 颗粒) 19.6 TB/s(12 stacks) AMD 基线强;NVIDIA 在赌供应
片间互联 NVLink 6,3.6 TB/s/GPU UALink + Infinity Fabric NVIDIA 生态成熟度碾压
机柜规模 NVL144:72 packages / 144 reticle dies Helios:72 MI455X 实际 GPU 数量相同
机柜总算力 3.6 EFLOPS FP4 2.9 EFLOPS FP4 NVIDIA +24%
机柜聚合带宽 260 TB/s 260 TB/s 持平
机柜 HBM 总量 ~20 TB ~31 TB AMD +55%
配套 CPU Vera(88 核 Arm) EPYC Venice(Zen 6) 各有优势
预计出货 2026 下半年(量可能受限) 2026 下半年 时间窗口重叠

压力点一:制程反超

这是最让 NVIDIA 不舒服的。AMD 的 MI450 系列将使用 TSMC N2(2nm 级)制程制造计算 chiplet——这是 AMD 第一次在 AI GPU 制程节点上领先 NVIDIA。

从 Maxwell 时代(2014 年)到现在,NVIDIA 在数据中心 GPU 上要么制程领先,要么持平。即使是在 Hopper(H100,TSMC N4)和 Blackwell(TSMC N4P)时期,AMD 的 MI300/MI350 用的也是同代或更旧的制程。现在 AMD 不仅追平了,还反超了一代。

制程领先意味着什么?在相同晶体管预算下,N2 相比 N3 大约有 10-15% 的性能提升或 25-30% 的功耗降低。这让 AMD 在 thermal budget 紧张的液冷机柜里有更大的余量去拉频率或塞更多计算单元。

压力点二:内存容量 432 GB vs 288 GB

50% 的容量优势不是小数点。在 frontier model 训练和推理中,显存容量直接决定了 tensor parallelism(TP,把模型参数切到多张 GPU 上并行计算)的切分策略。

以一个 1.8T 参数的 MoE 模型为例:如果每张 GPU 有 288 GB,需要至少 7-8 张 GPU 才能装下全部参数;432 GB 可以降到 5 张。更少的 TP degree 意味着更少的互联通信开销、更高的算力利用率、更低的推理延迟。

这也解释了为什么 NVIDIA 在 respin 中急着推动供应商提供 10Gbps HBM4——如果能把带宽从 13 TB/s 拉到 22 TB/s,至少在带宽维度上能反超 AMD 的 19.6 TB/s。但 10Gbps HBM4 目前还在早期量产阶段,Micron 虽然确认在送样,但能否大规模供货是问号。NVIDIA 的 respin 等于在赌供应链。

压力点三:真正的 rack-scale 竞品出现了

AMD 之前的 MI300X/MI350X 最大的短板不是单卡算力,而是互联。SemiAnalysis 的分析很直白:MI355X 的 scale-up 域(GPU 之间共享内存、协同计算的规模)只有 8 个 GPU,而 NVIDIA 的 GB200 NVL72 有 72 个。在大模型推理和训练中,72 个 GPU 作为一个统一内存池工作,和 8 个 GPU 一组再通过网络互联,是完全不同的性能量级。

Helios 改变了这一点。72 个 MI455X 通过 UALink(Ultra Accelerator Link,一个开放标准的高速加速器互联协议)组成一个 rack-scale 系统,聚合带宽 260 TB/s——和 NVIDIA 的 NVL144 打平。

这是 AMD 第一次在 rack-scale 维度上拿出与 NVIDIA 同级别的产品。

NVIDIA 仍然领先的地方

公平地说,MI450 的压力不是"性能碾压"级别的。

FP4 算力差距明显。 Rubin 50 PFLOPS vs MI455X 40 PFLOPS,NVIDIA 领先 25%。考虑到 NVIDIA 的 Transformer Engine 在低精度推理上的深度优化,实际 workload 中的差距可能更大。

软件生态护城河。 CUDA 的地位短期内不可动摇。ROCm 在过去两年进步很大(PyTorch 原生支持、HIP 兼容层越来越成熟),但大规模生产环境的成熟度差距依然存在。SemiAnalysis 2025 年的基准测试显示,在相同硬件规格下,CUDA 的实际利用率(MFU)仍比 ROCm 高出约 10 个百分点。

NVLink 6 的实际表现。 NVLink 经过了多代验证,UALink 是第一代产品。第一代互联协议在实际部署中的稳定性和性能表现,需要打一个问号。

压力的本质

MI450 对 NVIDIA 的压力,不是"单卡打赢你"的压力,而是"第一次在制程、内存、rack-scale 三个维度同时逼近甚至反超"的压力。

当你的竞争对手在几个关键指标上追平或领先,而你的软件和算力优势又在被逐步蚕食时,最理性的策略不是按原计划出货,而是花几个月时间把差距拉回来。

这就是 respin 的逻辑。


三、AMD 的 AI infra 这盘棋

AMD Instinct 三代追赶路线图
AMD Instinct 三代追赶路线图
AMD AI Infra 全栈产品线
AMD AI Infra 全栈产品线

从 MI250 到 MI450:三代追赶

AMD 在数据中心 AI GPU 上的追赶路径,可以简化为三个阶段:

MI250/MI300(2022-2024):证明自己能做。 MI250 用 CDNA 2 架构第一次进入 AI 训练市场,但性能和生态都落后 NVIDIA 一代以上。MI300X(CDNA 3)在纸面规格上追上了 H100(192 GB HBM3 vs 80 GB HBM3),但 ROCm 生态的差距让很多客户望而却步。

MI350(2025):缩小差距。 MI350X/MI355X(CDNA 4)在 FP16/BF16 推理上已经有竞争力,但 rack-scale 互联的短板(8 GPU scale-up 域)让它在 frontier model 场景中无法挑战 GB200 NVL72。

MI400(2026):第一次真正对位。 MI455X(CDNA 5)不仅在单卡规格上追平甚至超越 Rubin(内存容量),还第一次有了 72 GPU rack-scale 系统(Helios)。这是 AMD 第一次不需要为"NVIDIA 有什么而我没有"找借口。

投资布局:从芯片到全栈

AMD 从 2023 年开始密集收购,目标是补齐"芯片以外"的所有短板。这些收购加在一起,勾勒出 AMD 从 GPU 厂商转型为 AI infra 全栈供应商的路线。

2023 年:软件层打底。

  • Mipsology(未公开金额):法国公司,专注 AI 推理编译优化。被收购后整合进 ROCm 的推理优化链路——核心技术是让未针对 AMD 硬件优化的模型也能在 Instinct GPU 上跑得更快。
  • Nod.ai(未公开金额):开源 AI 编译器公司,核心产品 SHARK 是一个基于 MLIR/IREE 的自动编译框架,能将 PyTorch/TensorFlow 模型自动编译到 AMD GPU 上。Nod.ai 让"写一次、跑在 AMD 上"这件事变得更简单。

2024 年:模型能力 + 系统集成。

  • Silo AI($6.65 亿):欧洲最大的私人 AI 实验室,总部芬兰赫尔辛基。在 AMD 平台上训练了多个开源模型——Poro(芬兰语 LLM)、Viking(北欧语言 LLM),以及面向企业的定制 AI 方案。收购后以 AMD Silo AI 继续运营,成为 AMD 在大模型训练和部署上的核心工程力量,也是 AMD 在欧洲 AI 主权叙事中的桥头堡。
  • ZT Systems($49 亿):AMD 最大的一笔 AI 相关收购。ZT 是为 hyperscale 云厂商设计和制造定制 AI 服务器机柜的系统集成商。Lisa Su 说的很直白:"ZT 让 AMD 从提供芯片升级到提供完整的机柜。"收购后保留了 ZT 的系统设计团队(约 1000 名工程师),制造业务以战略 partnership 方式转给 Sanmina。这个布局的意图是:当 Meta 或 OpenAI 说"我要 1GW 的 Helios 机柜"时,AMD 可以直接交付。

2025 年:继续填充。

  • Brium(未公开金额):编译器和 AI 软件优化创业公司,专注于让 AI 软件在非原生硬件上高效运行——本质上就是在帮 ROCm 缩小和 CUDA 在编译器层面的差距。
  • Untether AI 团队(团队收购):这家加拿大 AI 推理芯片公司停止运营后,AMD 收编了其硬件和软件工程团队,获得了 at-memory 架构(在 SRAM 附近做计算,减少数据搬运)的经验。
  • Enosemi(未公开金额):硅光子创业公司,用光互联替代电互联来提升 GPU 之间的通信带宽和能效。这对未来的 rack-scale 和 pod-scale 互联影响很大。

AMD 还通过战略投资持有多家 AI 公司的股份,过去 12 个月投入超过 $1.25 亿。

产品规划:不只是 GPU

AMD 的 AI infra 产品线已经覆盖了从 CPU 到网络的全栈:

组件 产品 角色
GPU MI300X → MI350X → MI355X → MI450 系列 AI 训练和推理加速器
CPU EPYC Turin → EPYC Venice (Zen 6) 机柜级 CPU,和 GPU 配合
NIC/DPU Pensando Vulcano (800G) AI 机柜的网络智能卡,处理 scale-out 通信
机柜系统 Helios (ORW 机柜) 72 GPU rack-scale 系统,基于 Meta 的 Open Rack Wide 设计
互联 UALink (开放标准) GPU 之间 scale-up 互联
软件 ROCm 7 + AMD Enterprise AI Suite 开发工具、推理引擎、部署平台

一个值得注意的细节:Helios 的机柜设计基于 Meta 提交给 OCP(Open Compute Project)的 Open Rack Wide 规范。Meta 是 AMD 最大的 Instinct GPU 客户之一,Helios 的设计从一开始就是为 hyperscaler 的需求和部署习惯量身定做的。

谁在用 AMD 的 GPU?

Hyperscaler:

  • Meta:行业史上最大的 GPU 采购协议——多年、多代、最高 6GW 部署。首期 1GW 基于 MI450 架构定制 GPU,2026 下半年出货。作为协议的一部分,AMD 向 Meta 发行了认股权证,Meta 有权购买最多 1.6 亿股 AMD 股票(约 10% 流通股)。Meta 的策略是多供应商——同一周内它也和 NVIDIA 签了多年合同。
  • OpenAI:另一份 6GW 的多年协议,从 MI450 开始。OpenAI 同时在通过和 Oracle 的五年云协议(最高 3000 亿美元)使用 AMD GPU。
  • Oracle Cloud:首个公开宣布部署 MI450 的 hyperscaler,首期 50,000 颗 MI450 GPU,2026 年 Q3 开始。同时提供 MI300X 和 MI355X 实例。
  • Microsoft Azure:最早提供 MI300X 实例的云厂商之一(ND MI300X v5 系列,单 VM 1.5 TB HBM),在 Azure 上用 MI300X 跑自家的开源和闭源模型推理。已宣布 MI355X 实例计划。
  • Google Cloud:CPU 侧深度使用 EPYC,GPU 侧尚未大规模部署 Instinct,但 Google 是 UALink Consortium 的核心成员。

超级计算机 / HPC:

  • HPE El Capitan(美国劳伦斯利弗莫尔国家实验室):基于 MI300A APU(CPU+GPU 集成封装),2025 年投用后一度是全球最快的超级计算机。
  • LUMI(芬兰,CSC 运营):欧洲最大的 GPU 超级计算机,11,900 颗 MI250X GPU,Top500 欧洲排名第 3。被广泛用于大模型训练——AMD Silo AI 的 Poro 和 Viking 模型就是在 LUMI 上训练的。

AI Cloud / 创业公司:

  • TensorWave:北美最大的 AMD-first AI 云服务商,已部署 8,192 颗 MI325X 组成的训练集群(Tom's Hardware 报道),并开始提供 MI355X 实例。定位很明确:为不想被 NVIDIA 供应商锁定的客户提供 AMD GPU 算力。
  • Neocloud 生态:dstack 2025 年 Cloud GPU 报告显示,越来越多 neocloud 开始提供 AMD MI300X/MI350X 实例,价格通常低于同级别 NVIDIA GPU 15-30%。

OEM 生态: HPE、Dell、Lenovo、Supermicro 都已发布基于 MI355X 的服务器产品线。HPE 是 Helios 机柜的首个 OEM 合作伙伴。


四、硬件架构与软件体系:两条路线的深层分歧

到这一步,我们讨论的都是规格和生态。但 AMD 和 NVIDIA 之间更深层的分歧,藏在芯片架构和软件哲学里。

GPU 硬件设计思路:chiplet vs 单片

AMD 和 NVIDIA 在 GPU 架构上的核心分歧,是chiplet(小芯粒)vs 单片集成(monolithic)

CDNA 5 vs Blackwell:架构路线对比
CDNA 5 vs Blackwell:架构路线对比

NVIDIA 的路线:大单片。 从 Ampere(A100)到 Hopper(H100)到 Blackwell(B200),NVIDIA 一直坚持用尽可能大的单片 die。Blackwell 第一次尝试了双 die(两个 reticle-size die 通过 10 TB/s 的 die-to-die 互联连在一起),但本质上仍是两块大 die 的紧耦合,和 AMD 的多 chiplet 拆分思路不同。

NVIDIA 选择单片的理由:

  1. 互联延迟最低。 单片 die 内部的信号延迟是纳秒级的,而跨 die 的信号需要经过封装层,延迟更高、带宽更低。对于 NVLink 这种需要 GPU 之间紧密协作的互联来说,低延迟是硬性要求。
  2. 统一内存空间更简单。 单片 die 的所有计算单元共享同一个内存控制器和 L2 cache,不需要复杂的跨 die 缓存一致性协议。软件层面也更容易优化。
  3. 峰值算力密度。 在不考虑良率的情况下,单片可以在有限面积内塞进更多计算单元,单精度和低精度峰值算力通常更高。

AMD 的路线:chiplet。 AMD 把这个策略从 CPU(EPYC 的 CCD 拆分)成功移植到了 GPU。MI300X 的 CDNA 3 架构用 8 个 XCD(Accelerator Compute Die,加速计算芯粒)堆叠在 4 个 base die 上,每个 base die 实现 64 MB 的 Infinity Cache。MI355X 的 CDNA 4 继承了同样的结构,略微减少了每个 XCD 的 CU 数量来提高良率。MI455X 的 CDNA 5 进一步激进——根据 Linux kernel patch 和 Wccftech 的分析,CDNA 5 可能使用 8 个 XCD + 多个 I/O die + 专用 Multimedia I/O Die(MID),集成在双 interposer 上,总计 320 亿晶体管。

AMD 选择 chiplet 的理由也很充分:

  1. 良率。 这是最直接的收益。先进节点(N2/N3)的 die 面积越大,良率下降越快。8 个小 die 的总良率远高于一个等面积的大 die。一个 N2 计算芯粒坏了只丢 1/8 的算力,一颗大单片 die 上一块区域有缺陷,整颗 GPU 报废。
  2. 成本灵活性。 只有计算芯粒用最贵的 N2,I/O die 和 interposer 用更便宜的 N3 或 N6。N2 晶圆价格大约是 N3 的 1.5-2 倍,只在计算核心上用 N2 可以显著降低总成本。
  3. 产品衍生。 同一代架构可以通过组合不同数量的 chiplet 衍生多个产品型号。MI455X 用满 8 个 XCD,MI430X 用较少 XCD 面向 HPC 场景——不需要重新流片,只需要在封装阶段组合不同的 chiplet 配置。

代价:跨 die 通信。 Chiplet 架构的阿喀琉斯之踵是 die 之间的通信延迟。AMD 用 Infinity Fabric 和 3.5D 封装(混合 2.5D 水平互联 + 3D 垂直堆叠)来缓解这个问题,但物理规律无法完全绕过——跨 die 的带宽和延迟仍然不如单片 die 内部。

在 AI 训练中,这个问题的影响取决于 workload 特征。对于大矩阵乘法(GEMM)这种计算密集型操作,跨 die 通信只占很少的时间比例,chiplet 的代价可以忽略。但对于需要频繁跨 die 同步的操作(比如 attention 中的 softmax reduction、MoE 中的 expert routing),延迟开销会体现出来。

计算单元:CU vs SM 的设计哲学

在芯片内部,AMD 和 NVIDIA 的基本构建块也不同。

NVIDIA 的 SM(Streaming Multiprocessor) 侧重于低精度矩阵运算的峰值吞吐。每个 Blackwell SM 有 4 个 Tensor Core,专门优化了 FP8/FP4/INT8 的矩阵乘法吞吐。Chips and Cheese 的分析指出,B200 的每个 SM 在 FP8/FP16 矩阵运算上的 per-clock 吞吐是 CDNA 4 CU 的 2 倍。NVIDIA 的策略是"用更少但更强的核心"——B200 只有大约 160 个 SM,但每个 SM 的矩阵吞吐极高。

AMD 的 CU(Compute Unit) 走的是"更多但更宽"的路线。每个 CDNA 4 CU 有 128 条 FP32 SIMD lane(单指令发射宽度 64,即 wavefront 宽度 64),per-clock FP32 向量吞吐 256 FLOPS(计算 FMA)。MI355X 虽然 CU 数量比 MI300X 略少,但更高的时钟频率让它维持了总体向量吞吐的优势。在 FP32/FP64 这类传统 HPC 精度上,AMD 保持着对 NVIDIA 的明显优势。

CDNA 4 的一个重要改进是 LDS(Local Data Share,类似 NVIDIA 的 Shared Memory)从 64 KB 扩大到 160 KB,读带宽翻倍到 256 bytes/clock。这直接提升了 AI kernel 中 data reuse 的效率——一个分配 16 KB LDS 的 kernel,在 CDNA 3 上只能同时运行 4 个 workgroup,CDNA 4 上可以运行 10 个。更多的 workgroup 意味着更好的延迟隐藏和更高的执行单元利用率。

CDNA 4 还引入了 read-with-transpose LDS 指令——矩阵乘法中经常需要对一个矩阵做行列转置,传统做法需要在 LDS 中用额外的指令完成转置操作,现在硬件直接支持了。这类微架构级别的优化是 AMD 在 AI workload 上的关键改进方向。

核心差异的实质: NVIDIA 把晶体管预算优先分配给矩阵运算单元(Tensor Core),用更少的核心数获得更高的低精度矩阵吞吐。AMD 把晶体管预算更均匀地分配给向量单元和矩阵单元,在每个 CU 上实现更宽的 SIMD,用更多的核心数和更高的时钟来弥补单核矩阵吞吐的不足。两条路线在不同 workload 上各有胜负——NVIDIA 在低精度 AI 推理上有优势,AMD 在高精度 HPC 和科学计算上保持领先。

内存子系统:12-stack HBM4 的底气

MI455X 最大的硬件亮点是 432 GB HBM4(12 stacks × 12-Hi,19.6 TB/s 带宽)。这个容量优势直接来自 chiplet 架构——更多的 I/O die 可以引出更多的 HBM 接口。NVIDIA 的双 die 方案只能做到 8 个 HBM stack(288 GB),因为单个 die 的 HBM PHY 数量受限于 die 面积和封装复杂度。

432 GB 在大模型推理中的实际影响:

  • Llama 3 405B(BF16):约需 810 GB 显存。用 MI455X 只需 2 张 GPU(每张约 405 GB),TP=2。用 Rubin 需要 3 张(每张约 270 GB),TP=3。更低的 TP degree 直接减少了通信量。
  • MoE 模型(如 DeepSeek-R1 671B):激活参数约 37B,但全量参数 + KV cache 需要约 1.3-1.5 TB。用 MI455X 可以在 4 张 GPU 内放下,Rubin 可能需要 5-6 张。

更大的单卡显存也意味着在 batch size 和 context length 上有更大的灵活空间——这不是一个跑分问题,是实际部署中的工程约束。


硬件规格追上 NVIDIA 只是故事的一半。AI GPU 的竞争本质上是软件生态的竞争——这也是 NVIDIA 历史上最深的护城河。

ROCm 的进化

ROCm(Radeon Open Compute)是 AMD 的 GPU 计算平台,2016 年首次发布。它经历了一个从"几乎不可用"到"推理场景基本可用"的漫长过程。

2025 年发布的 ROCm 7 是一个重要节点:

  • PyTorch 原生支持:ROCm 版本的 PyTorch 已经上游合并到官方仓库,开发者不需要额外补丁。这是最基本的可用性门槛——PyTorch 不能直接跑在 AMD GPU 上,其他一切都免谈。
  • 预优化容器:ROCm 6.4 开始提供 plug-and-play 的 Docker 容器,涵盖训练和推理场景。开发者拉一个镜像就能开始跑模型,不需要手动配置环境。
  • 硬件覆盖扩展:ROCm 7 开始支持消费级 AMD GPU(RDNA 架构)用于推理,不再只限于数据中心 Instinct 产品线。对开发者生态的扩散很重要——更多的人能在本地 AMD GPU 上开发和测试,然后无缝迁移到 Instinct 集群。

CUDA 迁移:HIP 能走多远?

AMD 解决 CUDA 锁定的核心工具是 HIP(Heterogeneous-Compute Interface for Portability)。HIP 是一个和 CUDA 高度兼容的 C++ 运行时 API——大部分 CUDA 代码只需要做机械性的文本替换(比如 cudaMallochipMalloc<<<grid, block>>> 语法不变),就能编译为在 AMD GPU 上运行的 HIP 代码。

AMD 提供两种自动转换工具:

  • hipify-perl:Perl 脚本,直接对 CUDA 源码做文本替换。
  • hipify-clang:基于 Clang 的 AST 级别转换,更精确,能处理宏和模板。

实际迁移体验取决于代码复杂度。对于主要调用 cuBLAS/cuDNN/cuSPARSE 等标准库的应用,迁移成本很低——AMD 的 MIOpen、hipBLAS 等库提供了对应接口。但对于大量使用自定义 CUDA kernel 的项目,迁移仍然需要逐个调试和优化。

从开发者的反馈来看(Reddit r/ROCm 社区 2025-2026 年的讨论),迁移体验的评价可以概括为:

  • 推理场景:大部分主流模型可以直接用 vLLM/llama.cpp 的 ROCm 后端运行,迁移成本接近零。
  • 训练场景:标准 PyTorch 训练循环基本可以直接跑。但涉及自定义算子、混合精度策略、或 DeepSpeed/Megatron 等分布式训练框架时,需要额外适配工作。r/MachineLearning 2026 年中的讨论普遍认为 ROCm 的训练可用性在改善,但还没到"开箱即用"的程度。

开源推理引擎的 ROCm 支持

2025-2026 年,主流开源 LLM 推理引擎对 AMD GPU 的支持有了实质性进展:

  • vLLM:目前对 ROCm 支持最活跃的项目。2026 年 2 月 vLLM 官方博客详细介绍了 ROCm attention backend 的优化——包括专门为 AMD GPU 设计的 AITER(AMD Instinct Transformer Engine Runtime)注意力 kernel,以及针对 DeepSeek-R1 MLA 架构的专用后端。这意味着 vLLM 团队已经在为 AMD GPU 做底层 kernel 级优化,而不是简单的兼容层。
  • llama.cpp:支持 Vulkan 后端(可以跑在 AMD 消费级 GPU 上),同时有 ROCm 后端用于 Instinct 产品线。
  • SGLang:社区有 ROCm 支持的 PR,但成熟度不如 vLLM。
  • TensorRT-LLM:NVIDIA 私有推理引擎,不支持 AMD。这是 NVIDIA 软件生态"封闭性"的一个体现——TensorRT-LLM 的推理性能通常优于 vLLM/SGLang,但只跑在 NVIDIA GPU 上。

ROCm 7 的软件架构:分层设计

ROCm 不是单一的软件产品,而是一个分层的软件栈。AMD 官方把它分为五层:

层级 组件 角色
应用层 PyTorch、TensorFlow、JAX、vLLM、llama.cpp 用户直接接触的框架和工具
框架适配层 ROCm PyTorch integration、Triton for ROCm 让框架能跑在 AMD GPU 上的适配层
Core SDK HIP runtime、MIOpen、hipBLAS、rocRAND、rocFFT、AITER 核心计算库和运行时
编译器层 LLVM/Clang(AMD fork)、MLIR、IREE、SHARK 把高级代码编译为 AMD GPU 指令
驱动层 amdgpu(Linux kernel driver)、ROCR runtime 直接和 GPU 硬件对话

这个分层结构有几个值得关注的细节:

HIP 不只是"CUDA 翻译器"。 HIP(Heterogeneous-Compute Interface for Portability)虽然表面上是 CUDA API 的兼容层,但它也是一个独立的 GPU 编程模型。HIP runtime 直接和 amdgpu 驱动对话,不走 CUDA。当你在 AMD GPU 上运行 HIP 代码时,路径是 HIP → LLVM → AMD GPU ISA,不需要任何 CUDA 组件。

编译器是核心战场。 ROCm 7 的编译器链基于 LLVM(AMD 维护了一个 fork),并大量采用 MLIR(Multi-Level Intermediate Representation)作为中间表示。MLIR 的优势是可以在多个层级做优化——从高层算子融合到底层寄存器分配,都在同一个框架内完成。

两个编译器项目值得关注:

  • IREE(Intermediate Representation Execution Environment):Google 主导的开源编译器,能将 PyTorch/TensorFlow/JAX 模型直接编译为 AMD GPU 机器码。AMD 收购的 Nod.ai 正是 IREE 生态的核心贡献者。
  • SHARKNod.ai 开发):基于 MLIR/IREE 的自动编译框架,实现"写一次、编译到任何硬件"。它让开发者不需要手写 HIP kernel,直接从 PyTorch 模型获得接近手写优化的性能。

Triton 已经原生支持 AMD GPU。 OpenAI 开发的 Triton 是一个 GPU 编程语言和编译器,PyTorch 2.0 的 torch.compile() 底层使用 Triton 作为代码生成后端。ROCm 团队已经把 AMD GPU 的 Triton 后端合并到了 OpenAI Triton 主仓库。这意味着当你在 AMD GPU 上用 torch.compile() 时,PyTorch 会自动通过 Triton 生成针对 AMD GPU 优化的 kernel——不需要手写任何 HIP 代码。

这是 ROCm 和 CUDA 差距缩小的关键技术路径:不是让用户手动迁移代码,而是通过编译器自动生成优化的 AMD GPU kernel。开发者写的仍然是标准 PyTorch 代码,编译器负责适配硬件差异。

算子库是短板也是重点。 ROCm 的算子库(MIOpen 对标 cuDNN,hipBLAS 对标 cuBLAS,rocRAND 对标 cuRAND)在覆盖度上仍在追赶 CUDA。最大的差距在分布式训练相关的高级算子——NVIDIA 的 NCCL(通信库)经过多年优化,ROCm 对应的 RCCL 在大规模多节点训练中的稳定性和性能仍有差距。

AMD 的开源策略

AMD 在软件上走的是全开源路线——ROCm、MIOpen、hipBLAS、AITER 全部开源在 GitHub 上。这和 NVIDIA CUDA 的闭源策略形成鲜明对比。

开源的好处是:社区可以贡献代码、报告问题、做第三方基准测试,透明度高。坏处是:开源软件的"完成度"通常不如商业软件,用户需要自己承担集成和调试的成本。

AMD 通过收购 Nod.ai(开源编译器)、Brium(编译优化)来加速这条路线。Nod.ai 的 SHARK 编译器能让 PyTorch/TensorFlow 模型自动编译优化到 AMD GPU 上,省去手写 HIP kernel 的麻烦。

当前差距的量级

Silicon Analysts 2026 年的分析给出了一个量化参考:在相同硬件规格下,NVIDIA CUDA 的实际模型算力利用率(MFU,Model Flops Utilization)大约在 50-55%,AMD ROCm 约 45%。10 个百分点的 MFU 差距意味着什么?如果 AMD 的 GPU 峰值算力只有 NVIDIA 的 80%,再乘以更低的 MFU,实际有效算力可能只有 NVIDIA 的 65-70%。

这个差距正在被两种力量压缩:

  1. 硬件弥补:MI455X 在内存容量上领先 Rubin 50%,在部分场景(大模型推理、长 context)中,更大的显存直接减少了对通信的依赖,硬件优势可以部分抵消软件劣势。
  2. 软件迭代:ROCm 的迭代速度在加快。vLLM 的 AMD 专用 kernel、AITER 推理引擎、DeepSeek-R1 的 ROCm 部署指南——这些在 2024 年都是不存在的。2026 年的 ROCm 和 2024 年相比已经不是一个量级的东西。

但差距还没弥合。训练场景的成熟度、分布式训练框架的兼容性、边缘 case 的调试体验——这些都还需要时间。

关键案例:DeepSeek-R1 在 AMD GPU 上的推理

2025 年 2 月,AMD 官方博客发布了"Unlock DeepSeek-R1 Inference Performance on AMD Instinct MI300X"指南,详细介绍了在 MI300X 上部署 DeepSeek-R1 进行推理的完整流程。这个案例的意义不在于性能数字本身,而在于它证明了一件事:最热门的开源模型可以在 AMD GPU 上直接部署推理,不需要 NVIDIA 硬件。

DeepSeek-R1 是一个 MoE 架构的推理模型,对 GPU 内存和互联都有较高要求。能在 MI300X 上跑通,说明 ROCm 的推理生态已经过了"能不能跑"的阶段,进入了"怎么跑得更快"的阶段。


还需要观察什么

Rubin respin 后的最终规格。 如果 NVIDIA 成功拿到 10Gbps HBM4,带宽可能从 13 TB/s 提升到 22 TB/s,在带宽维度反超 AMD。但这取决于三星、SK 海力士、Micron 的量产进度。

Helios 的实际性能兑现。 72 GPU rack-scale 系统的难点不在纸面规格,在实际部署中的稳定性和性能一致性。UALink 第一代产品的成熟度是核心风险。

ROCm 7.x 在 MI450 上的表现。 软件生态是 AMD 翻越的最后一座山。MI450 上市时 ROCm 能不能做到"开箱即用"级别的生产就绪,直接决定了 AMD 能不能把硬件优势转化为市场份额。

AMD 的定价策略。 AMD 在 MI300/MI350 上走的是性价比路线(硬件成本通常低于 NVIDIA 同级产品)。MI400 时代 AMD 是否会尝试溢价定价,取决于它对自己产品力的信心。

MI500 路线图。 AMD 已确认 MI500(CDNA 6,N2P,HBM4e)预计 2027 年推出。SemiAnalysis 报道 MI500 可能推出 256 GPU 的 Scale Up Mega Pod——如果 AMD 能保持一年一代的节奏,同时持续改进 ROCm,2027-2028 年有可能在更多维度上追平 NVIDIA。

Broadcom / 定制芯片的威胁。 Silicon Analysts 的分析指出,AMD 数据中心 GPU 2025 年营收约 70-80 亿美元,市场份额 5-7%。NVIDIA 约 80%。但更大的结构性威胁来自 Broadcom 的 AI ASIC(2025 财年收入已超 200 亿美元)——Google TPU、Meta MTIA 等定制芯片正在从 NVIDIA 和 AMD 手中同时抢份额。AMD 的真正竞争对手可能不只是 NVIDIA。


声明: 本文基于公开信息撰写,综合参考了富邦金控研究报告(2025 年 8 月)、TrendForce、Tom's Hardware、SemiAnalysis、Silicon Analysts、S&P Global Market Intelligence、AMD Financial Analyst Day 2025、CRN、CNBC、vLLM 官方博客等来源。不构成投资建议。文中数据截至 2026 年 6 月 4 日。