NVIDIA Rubin 重新流片：AMD GPU 产品力值得期待？

台湾富邦研究报告曝光：Rubin 首版已 tape-out，但因 MI450 竞争压力推回重做。NVIDIA 做对了什么，又做错了什么？AMD 为什么终于摸到了 NVIDIA 的后视镜？

一、已经在 fab 的芯片，推回来重做

2025 年 8 月，台湾富邦金控研究团队出了一份在半导体圈引起震动的报告。核心信息只有两句话：

"Rubin 第一版已于 6 月底 tape-out，但 NVIDIA 正在重新设计这颗芯片，以更好地应对 AMD 即将推出的 MI450。"

"我们预计下一次 tape-out 时间在 9 月底或 10 月，按这个时间表，Rubin 在 2026 年的出货量将非常有限。"

芯片流片（tape-out）是半导体产品开发中最昂贵的节点之一。先进节点的掩膜版（mask）成本动辄数千万美元。一颗已经流片、正在 TSMC 产线上生产的芯片被拉回来重新设计，意味着上一次 mask 的钱白花了，量产时间至少推迟一个季度。

这种事在行业里不常见，但也不是没发生过。关键问题不是"NVIDIA 有没有能力 respin"，而是什么迫使它这么做。

NVIDIA 怎么说？

NVIDIA 的官方回应是标准的"一切按计划进行"——Rubin 仍将在 2026 年发布，年更节奏不变。CFO Colette Kress 此前也确认 Rubin GPU 和 Vera CPU 已经在 TSMC 投片。

但半导体行业有个不成文的规矩：除非延期已经瞒不住了，否则没有公司会承认项目延期。富邦的报告来自台湾供应链的一手信息，可信度不低。

Cadence 的线索

另一条间接证据来自 EDA 厂商 Cadence。EE Times Europe 报道 NVIDIA 正在使用 Cadence 的功耗分析工具对 Rubin 进行重新设计。如果你只是做小修小补，不需要引入新的功耗分析工具链。这暗示 respin 的幅度不小，至少涉及到功耗优化层面的重新布局。

为什么是现在？

时间节点很关键。NVIDIA 在 CES 2026（1 月）和 GTC 2026（3 月）上公布了 Rubin 的详细规格。同时，AMD 在 2025 年底的 Financial Analyst Day 上也亮出了 MI400 系列的底牌。当 NVIDIA 的工程师看到 AMD 那张规格表时，他们大概意识到了一件事：如果 Rubin 按原计划出货，它将在几个关键维度上落后于 AMD。

于是就有了这次 respin。

二、MI450 到底给 NVIDIA 造成了什么压力？

先看数据。

维度	NVIDIA Rubin (VR200)	AMD MI455X	领先方
制程	TSMC N3	TSMC N2 + N3 chiplet 混合	AMD
晶体管数	336B	320B	接近持平
芯片架构	双 reticle die 单片集成	12 个 chiplet（N2 计算芯 + N3 I/O 芯），3.5D 封装	路线不同，各有取舍
FP4 峰值算力	50 PFLOPS	40 PFLOPS	NVIDIA +25%
FP8 峰值算力	~25 PFLOPS（推算）	20 PFLOPS	NVIDIA +25%
HBM4 容量	288 GB（8 stacks × 12-Hi）	432 GB（12 stacks × 12-Hi）	AMD +50%
HBM4 带宽	13–22 TB/s（取决于能否拿到 10Gbps 颗粒）	19.6 TB/s（12 stacks）	AMD 基线强；NVIDIA 在赌供应
片间互联	NVLink 6，3.6 TB/s/GPU	UALink + Infinity Fabric	NVIDIA 生态成熟度碾压
机柜规模	NVL144：72 packages / 144 reticle dies	Helios：72 MI455X	实际 GPU 数量相同
机柜总算力	3.6 EFLOPS FP4	2.9 EFLOPS FP4	NVIDIA +24%
机柜聚合带宽	260 TB/s	260 TB/s	持平
机柜 HBM 总量	~20 TB	~31 TB	AMD +55%
配套 CPU	Vera（88 核 Arm）	EPYC Venice（Zen 6）	各有优势
预计出货	2026 下半年（量可能受限）	2026 下半年	时间窗口重叠

压力点一：制程反超

这是最让 NVIDIA 不舒服的。AMD 的 MI450 系列将使用 TSMC N2（2nm 级）制程制造计算 chiplet——这是 AMD 第一次在 AI GPU 制程节点上领先 NVIDIA。

从 Maxwell 时代（2014 年）到现在，NVIDIA 在数据中心 GPU 上要么制程领先，要么持平。即使是在 Hopper（H100，TSMC N4）和 Blackwell（TSMC N4P）时期，AMD 的 MI300/MI350 用的也是同代或更旧的制程。现在 AMD 不仅追平了，还反超了一代。

制程领先意味着什么？在相同晶体管预算下，N2 相比 N3 大约有 10-15% 的性能提升或 25-30% 的功耗降低。这让 AMD 在 thermal budget 紧张的液冷机柜里有更大的余量去拉频率或塞更多计算单元。

压力点二：内存容量 432 GB vs 288 GB

50% 的容量优势不是小数点。在 frontier model 训练和推理中，显存容量直接决定了 tensor parallelism（TP，把模型参数切到多张 GPU 上并行计算）的切分策略。

以一个 1.8T 参数的 MoE 模型为例：如果每张 GPU 有 288 GB，需要至少 7-8 张 GPU 才能装下全部参数；432 GB 可以降到 5 张。更少的 TP degree 意味着更少的互联通信开销、更高的算力利用率、更低的推理延迟。

这也解释了为什么 NVIDIA 在 respin 中急着推动供应商提供 10Gbps HBM4——如果能把带宽从 13 TB/s 拉到 22 TB/s，至少在带宽维度上能反超 AMD 的 19.6 TB/s。但 10Gbps HBM4 目前还在早期量产阶段，Micron 虽然确认在送样，但能否大规模供货是问号。NVIDIA 的 respin 等于在赌供应链。

压力点三：真正的 rack-scale 竞品出现了

AMD 之前的 MI300X/MI350X 最大的短板不是单卡算力，而是互联。SemiAnalysis 的分析很直白：MI355X 的 scale-up 域（GPU 之间共享内存、协同计算的规模）只有 8 个 GPU，而 NVIDIA 的 GB200 NVL72 有 72 个。在大模型推理和训练中，72 个 GPU 作为一个统一内存池工作，和 8 个 GPU 一组再通过网络互联，是完全不同的性能量级。

Helios 改变了这一点。72 个 MI455X 通过 UALink（Ultra Accelerator Link，一个开放标准的高速加速器互联协议）组成一个 rack-scale 系统，聚合带宽 260 TB/s——和 NVIDIA 的 NVL144 打平。

这是 AMD 第一次在 rack-scale 维度上拿出与 NVIDIA 同级别的产品。

NVIDIA 仍然领先的地方

公平地说，MI450 的压力不是"性能碾压"级别的。

FP4 算力差距明显。 Rubin 50 PFLOPS vs MI455X 40 PFLOPS，NVIDIA 领先 25%。考虑到 NVIDIA 的 Transformer Engine 在低精度推理上的深度优化，实际 workload 中的差距可能更大。

软件生态护城河。 CUDA 的地位短期内不可动摇。ROCm 在过去两年进步很大（PyTorch 原生支持、HIP 兼容层越来越成熟），但大规模生产环境的成熟度差距依然存在。SemiAnalysis 2025 年的基准测试显示，在相同硬件规格下，CUDA 的实际利用率（MFU）仍比 ROCm 高出约 10 个百分点。

NVLink 6 的实际表现。 NVLink 经过了多代验证，UALink 是第一代产品。第一代互联协议在实际部署中的稳定性和性能表现，需要打一个问号。

压力的本质

MI450 对 NVIDIA 的压力，不是"单卡打赢你"的压力，而是"第一次在制程、内存、rack-scale 三个维度同时逼近甚至反超"的压力。

当你的竞争对手在几个关键指标上追平或领先，而你的软件和算力优势又在被逐步蚕食时，最理性的策略不是按原计划出货，而是花几个月时间把差距拉回来。

这就是 respin 的逻辑。

三、AMD 的 AI infra 这盘棋

从 MI250 到 MI450：三代追赶

AMD 在数据中心 AI GPU 上的追赶路径，可以简化为三个阶段：

MI250/MI300（2022-2024）：证明自己能做。 MI250 用 CDNA 2 架构第一次进入 AI 训练市场，但性能和生态都落后 NVIDIA 一代以上。MI300X（CDNA 3）在纸面规格上追上了 H100（192 GB HBM3 vs 80 GB HBM3），但 ROCm 生态的差距让很多客户望而却步。

MI350（2025）：缩小差距。 MI350X/MI355X（CDNA 4）在 FP16/BF16 推理上已经有竞争力，但 rack-scale 互联的短板（8 GPU scale-up 域）让它在 frontier model 场景中无法挑战 GB200 NVL72。

MI400（2026）：第一次真正对位。 MI455X（CDNA 5）不仅在单卡规格上追平甚至超越 Rubin（内存容量），还第一次有了 72 GPU rack-scale 系统（Helios）。这是 AMD 第一次不需要为"NVIDIA 有什么而我没有"找借口。

投资布局：从芯片到全栈

AMD 从 2023 年开始密集收购，目标是补齐"芯片以外"的所有短板。这些收购加在一起，勾勒出 AMD 从 GPU 厂商转型为 AI infra 全栈供应商的路线。

2023 年：软件层打底。

Mipsology（未公开金额）：法国公司，专注 AI 推理编译优化。被收购后整合进 ROCm 的推理优化链路——核心技术是让未针对 AMD 硬件优化的模型也能在 Instinct GPU 上跑得更快。
Nod.ai（未公开金额）：开源 AI 编译器公司，核心产品 SHARK 是一个基于 MLIR/IREE 的自动编译框架，能将 PyTorch/TensorFlow 模型自动编译到 AMD GPU 上。Nod.ai 让"写一次、跑在 AMD 上"这件事变得更简单。

2024 年：模型能力 + 系统集成。

Silo AI（$6.65 亿）：欧洲最大的私人 AI 实验室，总部芬兰赫尔辛基。在 AMD 平台上训练了多个开源模型——Poro（芬兰语 LLM）、Viking（北欧语言 LLM），以及面向企业的定制 AI 方案。收购后以 AMD Silo AI 继续运营，成为 AMD 在大模型训练和部署上的核心工程力量，也是 AMD 在欧洲 AI 主权叙事中的桥头堡。
ZT Systems（$49 亿）：AMD 最大的一笔 AI 相关收购。ZT 是为 hyperscale 云厂商设计和制造定制 AI 服务器机柜的系统集成商。Lisa Su 说的很直白："ZT 让 AMD 从提供芯片升级到提供完整的机柜。"收购后保留了 ZT 的系统设计团队（约 1000 名工程师），制造业务以战略 partnership 方式转给 Sanmina。这个布局的意图是：当 Meta 或 OpenAI 说"我要 1GW 的 Helios 机柜"时，AMD 可以直接交付。

2025 年：继续填充。

Brium（未公开金额）：编译器和 AI 软件优化创业公司，专注于让 AI 软件在非原生硬件上高效运行——本质上就是在帮 ROCm 缩小和 CUDA 在编译器层面的差距。
Untether AI 团队（团队收购）：这家加拿大 AI 推理芯片公司停止运营后，AMD 收编了其硬件和软件工程团队，获得了 at-memory 架构（在 SRAM 附近做计算，减少数据搬运）的经验。
Enosemi（未公开金额）：硅光子创业公司，用光互联替代电互联来提升 GPU 之间的通信带宽和能效。这对未来的 rack-scale 和 pod-scale 互联影响很大。

AMD 还通过战略投资持有多家 AI 公司的股份，过去 12 个月投入超过 $1.25 亿。

产品规划：不只是 GPU

AMD 的 AI infra 产品线已经覆盖了从 CPU 到网络的全栈：

组件	产品	角色
GPU	MI300X → MI350X → MI355X → MI450 系列	AI 训练和推理加速器
CPU	EPYC Turin → EPYC Venice (Zen 6)	机柜级 CPU，和 GPU 配合
NIC/DPU	Pensando Vulcano (800G)	AI 机柜的网络智能卡，处理 scale-out 通信
机柜系统	Helios (ORW 机柜)	72 GPU rack-scale 系统，基于 Meta 的 Open Rack Wide 设计
互联	UALink (开放标准)	GPU 之间 scale-up 互联
软件	ROCm 7 + AMD Enterprise AI Suite	开发工具、推理引擎、部署平台

一个值得注意的细节：Helios 的机柜设计基于 Meta 提交给 OCP（Open Compute Project）的 Open Rack Wide 规范。Meta 是 AMD 最大的 Instinct GPU 客户之一，Helios 的设计从一开始就是为 hyperscaler 的需求和部署习惯量身定做的。

谁在用 AMD 的 GPU？

Hyperscaler：

Meta：行业史上最大的 GPU 采购协议——多年、多代、最高 6GW 部署。首期 1GW 基于 MI450 架构定制 GPU，2026 下半年出货。作为协议的一部分，AMD 向 Meta 发行了认股权证，Meta 有权购买最多 1.6 亿股 AMD 股票（约 10% 流通股）。Meta 的策略是多供应商——同一周内它也和 NVIDIA 签了多年合同。
OpenAI：另一份 6GW 的多年协议，从 MI450 开始。OpenAI 同时在通过和 Oracle 的五年云协议（最高 3000 亿美元）使用 AMD GPU。
Oracle Cloud：首个公开宣布部署 MI450 的 hyperscaler，首期 50,000 颗 MI450 GPU，2026 年 Q3 开始。同时提供 MI300X 和 MI355X 实例。
Microsoft Azure：最早提供 MI300X 实例的云厂商之一（ND MI300X v5 系列，单 VM 1.5 TB HBM），在 Azure 上用 MI300X 跑自家的开源和闭源模型推理。已宣布 MI355X 实例计划。
Google Cloud：CPU 侧深度使用 EPYC，GPU 侧尚未大规模部署 Instinct，但 Google 是 UALink Consortium 的核心成员。

超级计算机 / HPC：

HPE El Capitan（美国劳伦斯利弗莫尔国家实验室）：基于 MI300A APU（CPU+GPU 集成封装），2025 年投用后一度是全球最快的超级计算机。
LUMI（芬兰，CSC 运营）：欧洲最大的 GPU 超级计算机，11,900 颗 MI250X GPU，Top500 欧洲排名第 3。被广泛用于大模型训练——AMD Silo AI 的 Poro 和 Viking 模型就是在 LUMI 上训练的。

AI Cloud / 创业公司：

TensorWave：北美最大的 AMD-first AI 云服务商，已部署 8,192 颗 MI325X 组成的训练集群（Tom's Hardware 报道），并开始提供 MI355X 实例。定位很明确：为不想被 NVIDIA 供应商锁定的客户提供 AMD GPU 算力。
Neocloud 生态：dstack 2025 年 Cloud GPU 报告显示，越来越多 neocloud 开始提供 AMD MI300X/MI350X 实例，价格通常低于同级别 NVIDIA GPU 15-30%。

OEM 生态： HPE、Dell、Lenovo、Supermicro 都已发布基于 MI355X 的服务器产品线。HPE 是 Helios 机柜的首个 OEM 合作伙伴。

四、硬件架构与软件体系：两条路线的深层分歧

到这一步，我们讨论的都是规格和生态。但 AMD 和 NVIDIA 之间更深层的分歧，藏在芯片架构和软件哲学里。

GPU 硬件设计思路：chiplet vs 单片

AMD 和 NVIDIA 在 GPU 架构上的核心分歧，是chiplet（小芯粒）vs 单片集成（monolithic）。

NVIDIA 的路线：大单片。 从 Ampere（A100）到 Hopper（H100）到 Blackwell（B200），NVIDIA 一直坚持用尽可能大的单片 die。Blackwell 第一次尝试了双 die（两个 reticle-size die 通过 10 TB/s 的 die-to-die 互联连在一起），但本质上仍是两块大 die 的紧耦合，和 AMD 的多 chiplet 拆分思路不同。

NVIDIA 选择单片的理由：

互联延迟最低。 单片 die 内部的信号延迟是纳秒级的，而跨 die 的信号需要经过封装层，延迟更高、带宽更低。对于 NVLink 这种需要 GPU 之间紧密协作的互联来说，低延迟是硬性要求。
统一内存空间更简单。 单片 die 的所有计算单元共享同一个内存控制器和 L2 cache，不需要复杂的跨 die 缓存一致性协议。软件层面也更容易优化。
峰值算力密度。 在不考虑良率的情况下，单片可以在有限面积内塞进更多计算单元，单精度和低精度峰值算力通常更高。

AMD 的路线：chiplet。 AMD 把这个策略从 CPU（EPYC 的 CCD 拆分）成功移植到了 GPU。MI300X 的 CDNA 3 架构用 8 个 XCD（Accelerator Compute Die，加速计算芯粒）堆叠在 4 个 base die 上，每个 base die 实现 64 MB 的 Infinity Cache。MI355X 的 CDNA 4 继承了同样的结构，略微减少了每个 XCD 的 CU 数量来提高良率。MI455X 的 CDNA 5 进一步激进——根据 Linux kernel patch 和 Wccftech 的分析，CDNA 5 可能使用 8 个 XCD + 多个 I/O die + 专用 Multimedia I/O Die（MID），集成在双 interposer 上，总计 320 亿晶体管。

AMD 选择 chiplet 的理由也很充分：

良率。 这是最直接的收益。先进节点（N2/N3）的 die 面积越大，良率下降越快。8 个小 die 的总良率远高于一个等面积的大 die。一个 N2 计算芯粒坏了只丢 1/8 的算力，一颗大单片 die 上一块区域有缺陷，整颗 GPU 报废。
成本灵活性。 只有计算芯粒用最贵的 N2，I/O die 和 interposer 用更便宜的 N3 或 N6。N2 晶圆价格大约是 N3 的 1.5-2 倍，只在计算核心上用 N2 可以显著降低总成本。
产品衍生。 同一代架构可以通过组合不同数量的 chiplet 衍生多个产品型号。MI455X 用满 8 个 XCD，MI430X 用较少 XCD 面向 HPC 场景——不需要重新流片，只需要在封装阶段组合不同的 chiplet 配置。

代价：跨 die 通信。 Chiplet 架构的阿喀琉斯之踵是 die 之间的通信延迟。AMD 用 Infinity Fabric 和 3.5D 封装（混合 2.5D 水平互联 + 3D 垂直堆叠）来缓解这个问题，但物理规律无法完全绕过——跨 die 的带宽和延迟仍然不如单片 die 内部。

在 AI 训练中，这个问题的影响取决于 workload 特征。对于大矩阵乘法（GEMM）这种计算密集型操作，跨 die 通信只占很少的时间比例，chiplet 的代价可以忽略。但对于需要频繁跨 die 同步的操作（比如 attention 中的 softmax reduction、MoE 中的 expert routing），延迟开销会体现出来。

计算单元：CU vs SM 的设计哲学

在芯片内部，AMD 和 NVIDIA 的基本构建块也不同。

NVIDIA 的 SM（Streaming Multiprocessor） 侧重于低精度矩阵运算的峰值吞吐。每个 Blackwell SM 有 4 个 Tensor Core，专门优化了 FP8/FP4/INT8 的矩阵乘法吞吐。Chips and Cheese 的分析指出，B200 的每个 SM 在 FP8/FP16 矩阵运算上的 per-clock 吞吐是 CDNA 4 CU 的 2 倍。NVIDIA 的策略是"用更少但更强的核心"——B200 只有大约 160 个 SM，但每个 SM 的矩阵吞吐极高。

AMD 的 CU（Compute Unit） 走的是"更多但更宽"的路线。每个 CDNA 4 CU 有 128 条 FP32 SIMD lane（单指令发射宽度 64，即 wavefront 宽度 64），per-clock FP32 向量吞吐 256 FLOPS（计算 FMA）。MI355X 虽然 CU 数量比 MI300X 略少，但更高的时钟频率让它维持了总体向量吞吐的优势。在 FP32/FP64 这类传统 HPC 精度上，AMD 保持着对 NVIDIA 的明显优势。

CDNA 4 的一个重要改进是 LDS（Local Data Share，类似 NVIDIA 的 Shared Memory）从 64 KB 扩大到 160 KB，读带宽翻倍到 256 bytes/clock。这直接提升了 AI kernel 中 data reuse 的效率——一个分配 16 KB LDS 的 kernel，在 CDNA 3 上只能同时运行 4 个 workgroup，CDNA 4 上可以运行 10 个。更多的 workgroup 意味着更好的延迟隐藏和更高的执行单元利用率。

CDNA 4 还引入了 read-with-transpose LDS 指令——矩阵乘法中经常需要对一个矩阵做行列转置，传统做法需要在 LDS 中用额外的指令完成转置操作，现在硬件直接支持了。这类微架构级别的优化是 AMD 在 AI workload 上的关键改进方向。

核心差异的实质： NVIDIA 把晶体管预算优先分配给矩阵运算单元（Tensor Core），用更少的核心数获得更高的低精度矩阵吞吐。AMD 把晶体管预算更均匀地分配给向量单元和矩阵单元，在每个 CU 上实现更宽的 SIMD，用更多的核心数和更高的时钟来弥补单核矩阵吞吐的不足。两条路线在不同 workload 上各有胜负——NVIDIA 在低精度 AI 推理上有优势，AMD 在高精度 HPC 和科学计算上保持领先。

内存子系统：12-stack HBM4 的底气

MI455X 最大的硬件亮点是 432 GB HBM4（12 stacks × 12-Hi，19.6 TB/s 带宽）。这个容量优势直接来自 chiplet 架构——更多的 I/O die 可以引出更多的 HBM 接口。NVIDIA 的双 die 方案只能做到 8 个 HBM stack（288 GB），因为单个 die 的 HBM PHY 数量受限于 die 面积和封装复杂度。

432 GB 在大模型推理中的实际影响：

Llama 3 405B（BF16）：约需 810 GB 显存。用 MI455X 只需 2 张 GPU（每张约 405 GB），TP=2。用 Rubin 需要 3 张（每张约 270 GB），TP=3。更低的 TP degree 直接减少了通信量。
MoE 模型（如 DeepSeek-R1 671B）：激活参数约 37B，但全量参数 + KV cache 需要约 1.3-1.5 TB。用 MI455X 可以在 4 张 GPU 内放下，Rubin 可能需要 5-6 张。

更大的单卡显存也意味着在 batch size 和 context length 上有更大的灵活空间——这不是一个跑分问题，是实际部署中的工程约束。

硬件规格追上 NVIDIA 只是故事的一半。AI GPU 的竞争本质上是软件生态的竞争——这也是 NVIDIA 历史上最深的护城河。

ROCm 的进化

ROCm（Radeon Open Compute）是 AMD 的 GPU 计算平台，2016 年首次发布。它经历了一个从"几乎不可用"到"推理场景基本可用"的漫长过程。

2025 年发布的 ROCm 7 是一个重要节点：

PyTorch 原生支持：ROCm 版本的 PyTorch 已经上游合并到官方仓库，开发者不需要额外补丁。这是最基本的可用性门槛——PyTorch 不能直接跑在 AMD GPU 上，其他一切都免谈。
预优化容器：ROCm 6.4 开始提供 plug-and-play 的 Docker 容器，涵盖训练和推理场景。开发者拉一个镜像就能开始跑模型，不需要手动配置环境。
硬件覆盖扩展：ROCm 7 开始支持消费级 AMD GPU（RDNA 架构）用于推理，不再只限于数据中心 Instinct 产品线。对开发者生态的扩散很重要——更多的人能在本地 AMD GPU 上开发和测试，然后无缝迁移到 Instinct 集群。

CUDA 迁移：HIP 能走多远？

AMD 解决 CUDA 锁定的核心工具是 HIP（Heterogeneous-Compute Interface for Portability）。HIP 是一个和 CUDA 高度兼容的 C++ 运行时 API——大部分 CUDA 代码只需要做机械性的文本替换（比如 cudaMalloc → hipMalloc，<<<grid, block>>> 语法不变），就能编译为在 AMD GPU 上运行的 HIP 代码。

AMD 提供两种自动转换工具：

hipify-perl：Perl 脚本，直接对 CUDA 源码做文本替换。
hipify-clang：基于 Clang 的 AST 级别转换，更精确，能处理宏和模板。

实际迁移体验取决于代码复杂度。对于主要调用 cuBLAS/cuDNN/cuSPARSE 等标准库的应用，迁移成本很低——AMD 的 MIOpen、hipBLAS 等库提供了对应接口。但对于大量使用自定义 CUDA kernel 的项目，迁移仍然需要逐个调试和优化。

从开发者的反馈来看（Reddit r/ROCm 社区 2025-2026 年的讨论），迁移体验的评价可以概括为：

推理场景：大部分主流模型可以直接用 vLLM/llama.cpp 的 ROCm 后端运行，迁移成本接近零。
训练场景：标准 PyTorch 训练循环基本可以直接跑。但涉及自定义算子、混合精度策略、或 DeepSpeed/Megatron 等分布式训练框架时，需要额外适配工作。r/MachineLearning 2026 年中的讨论普遍认为 ROCm 的训练可用性在改善，但还没到"开箱即用"的程度。

开源推理引擎的 ROCm 支持

2025-2026 年，主流开源 LLM 推理引擎对 AMD GPU 的支持有了实质性进展：

vLLM：目前对 ROCm 支持最活跃的项目。2026 年 2 月 vLLM 官方博客详细介绍了 ROCm attention backend 的优化——包括专门为 AMD GPU 设计的 AITER（AMD Instinct Transformer Engine Runtime）注意力 kernel，以及针对 DeepSeek-R1 MLA 架构的专用后端。这意味着 vLLM 团队已经在为 AMD GPU 做底层 kernel 级优化，而不是简单的兼容层。
llama.cpp：支持 Vulkan 后端（可以跑在 AMD 消费级 GPU 上），同时有 ROCm 后端用于 Instinct 产品线。
SGLang：社区有 ROCm 支持的 PR，但成熟度不如 vLLM。
TensorRT-LLM：NVIDIA 私有推理引擎，不支持 AMD。这是 NVIDIA 软件生态"封闭性"的一个体现——TensorRT-LLM 的推理性能通常优于 vLLM/SGLang，但只跑在 NVIDIA GPU 上。

ROCm 7 的软件架构：分层设计

ROCm 不是单一的软件产品，而是一个分层的软件栈。AMD 官方把它分为五层：

层级	组件	角色
应用层	PyTorch、TensorFlow、JAX、vLLM、llama.cpp	用户直接接触的框架和工具
框架适配层	ROCm PyTorch integration、Triton for ROCm	让框架能跑在 AMD GPU 上的适配层
Core SDK	HIP runtime、MIOpen、hipBLAS、rocRAND、rocFFT、AITER	核心计算库和运行时
编译器层	LLVM/Clang（AMD fork）、MLIR、IREE、SHARK	把高级代码编译为 AMD GPU 指令
驱动层	amdgpu（Linux kernel driver）、ROCR runtime	直接和 GPU 硬件对话

这个分层结构有几个值得关注的细节：

HIP 不只是"CUDA 翻译器"。 HIP（Heterogeneous-Compute Interface for Portability）虽然表面上是 CUDA API 的兼容层，但它也是一个独立的 GPU 编程模型。HIP runtime 直接和 amdgpu 驱动对话，不走 CUDA。当你在 AMD GPU 上运行 HIP 代码时，路径是 HIP → LLVM → AMD GPU ISA，不需要任何 CUDA 组件。

编译器是核心战场。 ROCm 7 的编译器链基于 LLVM（AMD 维护了一个 fork），并大量采用 MLIR（Multi-Level Intermediate Representation）作为中间表示。MLIR 的优势是可以在多个层级做优化——从高层算子融合到底层寄存器分配，都在同一个框架内完成。

两个编译器项目值得关注：

IREE（Intermediate Representation Execution Environment）：Google 主导的开源编译器，能将 PyTorch/TensorFlow/JAX 模型直接编译为 AMD GPU 机器码。AMD 收购的 Nod.ai 正是 IREE 生态的核心贡献者。
SHARK（Nod.ai 开发）：基于 MLIR/IREE 的自动编译框架，实现"写一次、编译到任何硬件"。它让开发者不需要手写 HIP kernel，直接从 PyTorch 模型获得接近手写优化的性能。

Triton 已经原生支持 AMD GPU。 OpenAI 开发的 Triton 是一个 GPU 编程语言和编译器，PyTorch 2.0 的 torch.compile() 底层使用 Triton 作为代码生成后端。ROCm 团队已经把 AMD GPU 的 Triton 后端合并到了 OpenAI Triton 主仓库。这意味着当你在 AMD GPU 上用 torch.compile() 时，PyTorch 会自动通过 Triton 生成针对 AMD GPU 优化的 kernel——不需要手写任何 HIP 代码。

这是 ROCm 和 CUDA 差距缩小的关键技术路径：不是让用户手动迁移代码，而是通过编译器自动生成优化的 AMD GPU kernel。开发者写的仍然是标准 PyTorch 代码，编译器负责适配硬件差异。

算子库是短板也是重点。 ROCm 的算子库（MIOpen 对标 cuDNN，hipBLAS 对标 cuBLAS，rocRAND 对标 cuRAND）在覆盖度上仍在追赶 CUDA。最大的差距在分布式训练相关的高级算子——NVIDIA 的 NCCL（通信库）经过多年优化，ROCm 对应的 RCCL 在大规模多节点训练中的稳定性和性能仍有差距。

AMD 的开源策略

AMD 在软件上走的是全开源路线——ROCm、MIOpen、hipBLAS、AITER 全部开源在 GitHub 上。这和 NVIDIA CUDA 的闭源策略形成鲜明对比。

开源的好处是：社区可以贡献代码、报告问题、做第三方基准测试，透明度高。坏处是：开源软件的"完成度"通常不如商业软件，用户需要自己承担集成和调试的成本。

AMD 通过收购 Nod.ai（开源编译器）、Brium（编译优化）来加速这条路线。Nod.ai 的 SHARK 编译器能让 PyTorch/TensorFlow 模型自动编译优化到 AMD GPU 上，省去手写 HIP kernel 的麻烦。

当前差距的量级

Silicon Analysts 2026 年的分析给出了一个量化参考：在相同硬件规格下，NVIDIA CUDA 的实际模型算力利用率（MFU，Model Flops Utilization）大约在 50-55%，AMD ROCm 约 45%。10 个百分点的 MFU 差距意味着什么？如果 AMD 的 GPU 峰值算力只有 NVIDIA 的 80%，再乘以更低的 MFU，实际有效算力可能只有 NVIDIA 的 65-70%。

这个差距正在被两种力量压缩：

硬件弥补：MI455X 在内存容量上领先 Rubin 50%，在部分场景（大模型推理、长 context）中，更大的显存直接减少了对通信的依赖，硬件优势可以部分抵消软件劣势。
软件迭代：ROCm 的迭代速度在加快。vLLM 的 AMD 专用 kernel、AITER 推理引擎、DeepSeek-R1 的 ROCm 部署指南——这些在 2024 年都是不存在的。2026 年的 ROCm 和 2024 年相比已经不是一个量级的东西。

但差距还没弥合。训练场景的成熟度、分布式训练框架的兼容性、边缘 case 的调试体验——这些都还需要时间。

关键案例：DeepSeek-R1 在 AMD GPU 上的推理

2025 年 2 月，AMD 官方博客发布了"Unlock DeepSeek-R1 Inference Performance on AMD Instinct MI300X"指南，详细介绍了在 MI300X 上部署 DeepSeek-R1 进行推理的完整流程。这个案例的意义不在于性能数字本身，而在于它证明了一件事：最热门的开源模型可以在 AMD GPU 上直接部署推理，不需要 NVIDIA 硬件。

DeepSeek-R1 是一个 MoE 架构的推理模型，对 GPU 内存和互联都有较高要求。能在 MI300X 上跑通，说明 ROCm 的推理生态已经过了"能不能跑"的阶段，进入了"怎么跑得更快"的阶段。

还需要观察什么

Rubin respin 后的最终规格。 如果 NVIDIA 成功拿到 10Gbps HBM4，带宽可能从 13 TB/s 提升到 22 TB/s，在带宽维度反超 AMD。但这取决于三星、SK 海力士、Micron 的量产进度。

Helios 的实际性能兑现。 72 GPU rack-scale 系统的难点不在纸面规格，在实际部署中的稳定性和性能一致性。UALink 第一代产品的成熟度是核心风险。

ROCm 7.x 在 MI450 上的表现。 软件生态是 AMD 翻越的最后一座山。MI450 上市时 ROCm 能不能做到"开箱即用"级别的生产就绪，直接决定了 AMD 能不能把硬件优势转化为市场份额。

AMD 的定价策略。 AMD 在 MI300/MI350 上走的是性价比路线（硬件成本通常低于 NVIDIA 同级产品）。MI400 时代 AMD 是否会尝试溢价定价，取决于它对自己产品力的信心。

MI500 路线图。 AMD 已确认 MI500（CDNA 6，N2P，HBM4e）预计 2027 年推出。SemiAnalysis 报道 MI500 可能推出 256 GPU 的 Scale Up Mega Pod——如果 AMD 能保持一年一代的节奏，同时持续改进 ROCm，2027-2028 年有可能在更多维度上追平 NVIDIA。

Broadcom / 定制芯片的威胁。 Silicon Analysts 的分析指出，AMD 数据中心 GPU 2025 年营收约 70-80 亿美元，市场份额 5-7%。NVIDIA 约 80%。但更大的结构性威胁来自 Broadcom 的 AI ASIC（2025 财年收入已超 200 亿美元）——Google TPU、Meta MTIA 等定制芯片正在从 NVIDIA 和 AMD 手中同时抢份额。AMD 的真正竞争对手可能不只是 NVIDIA。

声明： 本文基于公开信息撰写，综合参考了富邦金控研究报告（2025 年 8 月）、TrendForce、Tom's Hardware、SemiAnalysis、Silicon Analysts、S&P Global Market Intelligence、AMD Financial Analyst Day 2025、CRN、CNBC、vLLM 官方博客等来源。不构成投资建议。文中数据截至 2026 年 6 月 4 日。