← 返回观点 思考

悬念:为什么 NVL72 的铜缆在两年内就被判了死刑?

本文基于截至 2026 年 5 月 19 日的公开信息撰写。数据来源标注:[官方]=NVIDIA 发布;[推算]=基于公开参数计算;[第三方]=媒体/研报。明天 NVIDIA Q1 财报可能带来修正。

2026-05-20思考45 分钟阅读

悬念:为什么 NVL72 的铜缆在两年内就被判了死刑?

本文基于截至 2026 年 5 月 19 日的公开信息撰写。数据来源标注:[官方]=NVIDIA 发布;[推算]=基于公开参数计算;[第三方]=媒体/研报。明天 NVIDIA Q1 财报可能带来修正。

本文基于截至 2026 年 5 月 19 日的公开信息撰写。数据来源标注:[官方]=NVIDIA 发布;[推算]=基于公开参数计算;[第三方]=媒体/研报。明天 NVIDIA Q1 财报可能带来修正。


悬念:为什么 NVL72 的铜缆在两年内就被判了死刑?

2024 年 3 月,NVIDIA 发布 GB200 NVL72,黄仁勋称之为"把 72 颗 GPU 变成一个巨型 GPU"。这个机柜内含 5000 根铜缆,总重 1.4 吨,双向带宽 130 TB/s。SerDes 速率 200G,5000 根铜缆编织出一个庞大的 GPU 间通信脊柱。

但仅仅两年后,Rubin Ultra NVL576 彻底抛弃了铜缆,改用 78 层 PCB 正交背板。Cable Tray——那个被黄仁勋自豪展示的铜缆脊柱——完全消失了。

这不是"换线"。背后是 AI 算力需求指数级增长与铜缆物理极限之间不可调和的矛盾。从 NVL72 到 NVL576,物理形态、互联拓扑、芯片架构、散热方案、软件栈同步重构。理解这个脉络,才能看清 NVIDIA 为什么砍掉 Rubin CPX、收购 Groq、跳过 NVL144——以及为什么"30倍推理提升"实际上还保守了。

本文要回答的问题:

  1. 从 NVL72 到 NVL576,物理形态到底变了什么?为什么必须变?
  2. NVLink 5→6,互联架构有什么根本性变化?
  3. GPU、CPU、LPU 三类芯片如何在超节点中分工?工程约束是什么?
  4. 软件栈如何释放硬件性能?Dynamo 为什么是"AI 工厂的操作系统"?
  5. 实测数据如何演进?从 H100 到 GB300 NVL72,推理性能到底提升了几倍?
  6. 铜缆为什么被淘汰?正交背板解决了什么,引入了什么新问题?
  7. NVL144 为什么被跳过?对产品节奏意味着什么?

一、四代超节点总览

维度 GB200 NVL72 GB300 NVL72 Vera Rubin NVL72 Rubin Ultra NVL576
发布 2024.03 2025.07 2026.01/03 2027H2(计划)
GPU Blackwell 2-Die Blackwell Ultra 2-Die Rubin 2-Die N3P Rubin Ultra 2+2模块化 N3P
GPU Die数 72 72 72 576
CPU Grace 72核 Grace 72核 Vera 88核 Arm v9.2 Vera 同左
HBM 192GB HBM3e 288GB HBM3e 288GB HBM4 1TB HBM4e
HBM带宽/封装 8 TB/s 8 TB/s 22 TB/s ~32 TB/s[推算]
FP4推理 720 PFLOPS 1,080 PFLOPS 3.6 EFLOPS 15 EFLOPS
FP8训练 ~360 PFLOPS[推算] ~540 PFLOPS[推算] 2.5 EFLOPS 5 EFLOPS
NVLink 5th, 1.8TB/s/GPU 5th, 1.8TB/s 6th, 3.6TB/s 6th, 3.6TB/s
机架NVLink 130 TB/s 130 TB/s 260 TB/s 1.5 PB/s
互联介质 铜缆Cable Tray 铜缆Cable Tray 无缆模块化(铜走线) PCB正交背板
单GPU功耗 ~1000W ~1400W ~2000W ~2000W+[推算]
机架功耗 ~120kW ~140-150kW ~200kW ~400+kW[推算]
Scale-Out CX-7 400Gb/s CX-8 800Gb/s CX-9 1.6Tb/s+BF4 CX-9+CPO
推理软件栈 TensorRT-LLM TensorRT-LLM+Dynamo初版 Dynamo 1.0 Dynamo + AFD
状态 已量产 已量产 验证中 未量产

:2026年3月末供应链修正——Rubin Ultra从"单封装4-Die"调整为"2-Die基础单元 + PCB/CoWoP 2+2拼接"。总算力不变,但封装复杂度下降,系统级PCB复杂度上升。[第三方]

读懂这张表的三个关键数字

NVL576 的"576"是 Die 数,不是封装数。 Rubin Ultra 每封装 4 Die(实际为2+2模块化拼接),144封装×4=576。[官方] 这反映了 NVIDIA 的设计哲学转变:不再追求单 Die 极致性能,而是通过多 Die 封装在系统层面堆算力。

算力增长20倍 vs Die增长8倍。 GB200→Rubin Ultra,FP4推理从 720→15000 PFLOPS(~20倍),但 Die 数量只增长8倍(72→576),意味着单 Die 算力实际只增长~2.6倍。系统级算力增长的驱动力正从"芯片更强"转向"系统更大"。

功耗增长3.3倍 vs 算力增长20倍。 看似能效提升,反向解读更准确——散热已成为约束条件,算力增长被迫在功耗预算内寻找路径(引入 FP4 精度、增加 Die 数而非单 Die 功耗)。


二、物理形态的演进:从 Cable Tray 到正交背板

2.1 GB200 NVL72:铜缆的巅峰

GB200 NVL72 机架实物图 — 前部蓝色区域为18个计算托盘,中部为9个NVLink交换托盘,后部为Cable Cartridge铜缆托盘
GB200 NVL72 机架实物图 — 前部蓝色区域为18个计算托盘,中部为9个NVLink交换托盘,后部为Cable Cartridge铜缆托盘

48U 标准机柜,布局严格按信号路径最短化:

  • 前部:18 个计算托盘,每托盘 2×Grace + 4×Blackwell GPU(NVLink-C2C 连接为 NUMA 域),独立液冷单元
  • 中部:9 个 NVLink 交换托盘,每托盘 2×NVSwitch。每颗 NVSwitch 72端口×2×200Gbps = 14.4 TB/s 双向
  • 后部:Cable Cartridge,~5000根铜缆,总长3.2公里,总重1.4吨
  • 顶部:2×SN2201交换机 + 6-8×33kW电源架(50V DC母线)
  • 底部:44U 液冷歧管

拓扑本质:完全二分图 K_{18,72}。 18颗NVSwitch与72颗GPU构成complete bipartite graph。每颗GPU连全部18颗NVSwitch,单跳拓扑,无中间层级。

带宽分配验证:

NVL576 机架正交结构可视化:计算节点纵向插入 vs 交换节点横向插入,中置背板互连
NVL576 机架正交结构可视化:计算节点纵向插入 vs 交换节点横向插入,中置背板互连
NVL72 铜缆方案 vs NVL576 正交背板方案互联方式对比
NVL72 铜缆方案 vs NVL576 正交背板方案互联方式对比

"正交"含义:计算节点纵向插入与交换节点横向插入在背板平面上互相垂直,两类节点可独立插拔。这带来的好处是:计算节点可以热插拔(故障时直接拔出更换),交换节点也可以独立维护。但这种"独立插拔"是相对的——背板本身是固定的,如果背板内部走线损坏,整个机柜必须返厂。

工程参数

  • 78层PCB(传统服务器主板12-24层,高端网络交换机主板32-48层,78层是前所未有的规模)
  • M9级CCL(Dk<3.5, Df<0.002)+ Q布(石英纤维布)+ HVLP4铜箔——这三者的组合是为了在78层堆叠中保持阻抗一致性。Dk(介电常数)决定了信号传播速度,Df(损耗因子)决定了信号衰减,M9级别意味着Df低于0.002——这是目前商用CCL的最高等级
  • 差分线对数≥5,184(18节点×4端口×72对/端口)[推算]——每对差分线必须在78层中精确对齐,任何一对的阻抗偏差都会导致误码率上升
  • 单块背板价值>20万美元(vs Cable Tray ~3-5万美元)——成本增加了4-6倍

为什么必须放弃铜缆? 深层原因:224G SerDes铜缆传输距离极限~1-2米。NVL576机柜比NVL72大得多(144封装vs36封装),铜缆长度必然超限。正交背板通过PCB内精确阻抗匹配走线实现可靠传输。铜缆不是"不够好"被淘汰,而是在NVL576尺度下"不可用"。

更具体地说:铜缆的趋肤效应(skin effect)在高频下使电流集中在导体表面,200G SerDes时有效传输距离已经很短,224G SerDes时进一步恶化。PCB走线可以通过精确控制线宽、间距和介电层厚度来补偿趋肤效应,而铜缆做不到——分立铜缆的几何一致性无法像PCB一样精确控制。

代价

  1. 良率:78层M9 PCB层间对准精度微米级,估计良率60-70% [第三方]。这意味着每3块中可能有1块因层间对准偏差而报废。20万美元/块的成本×30-40%报废率=有效成本28-33万美元/块
  2. 可维护性倒退:背板固定连接,损坏→整柜返厂(vs铜缆可拔插更换)。一个144封装机柜返厂的运输+维修周期估计2-4周,期间576个Die完全不可用
  3. 产能瓶颈:M9 CCL仅少数供应商(生益科技、台光电子),Q布菲利华占70%份额,供需失衡持续至2027 [第三方]。这意味着Rubin Ultra NVL576的交付节奏可能不是由芯片产能决定,而是由PCB产能决定——这在NVIDIA历史上是第一次"非芯片因素决定交付"
  4. 热膨胀不匹配:78层PCB的CTE(热系数)与连接器CTE不完全匹配。400+kW热负荷下,机柜内部温度梯度可达20-30°C,78层PCB各层的热膨胀量不同,长期运行可能导致层间微裂纹。这个问题在实验室环境中不易复现,但在数据中心7×24运行3-5年后可能集中爆发

2.5 正交背板 vs 铜缆:一笔 TCO 账

前面分析了技术优劣,但客户最终的问题是:换背板后,每 token 成本是升还是降?

以 DeepSeek-R1 推理为例,做一个量级估算:

成本项 双 NVL72 (铜缆方案) 单 NVL576 (背板方案)
硬件成本 2×NVL72 ≈ $600-700万 1×NVL576 ≈ $1200-1500万
互联成本 Cable Tray ×2 ≈ $8-10万 + CX-9 IB交换 ≈ $30万 正交背板 ≈ $30万
总算力(FP4) 2×1.08 EF = 2.16 EF 15 EF(7倍
互联带宽 130+130=260 TB/s (NVLink) + IB 1.5 PB/s (全NVLink)
NVLink 域 72+72=144 GPU (跨IB) 576 Die (单域)
EP 效率 EP72×2 跨 IB,all-to-all ~10μs EP576 单域,all-to-all ~1μs
功耗 ~280-300kW ~400+kW
维护 铜缆可换件,MTTR~小时级 背板损坏返厂,MTTR~周级

每 token 成本推算

  • 双 NVL72 理论吞吐:2×226 tok/s/GPU × 72 = 32,544 tok/s(但跨 IB 的 EP 效率打折,实际 ~25,000 tok/s)
  • 单 NVL576 理论吞吐:算力是双 NVL72 的 7 倍,但 EP576 的 EP 通信效率不如 EP72×2(跨区延迟)。估计实际吞吐 ~120,000-150,000 tok/s
  • 每 token 成本 = (硬件折旧+电费+运维) / 吞吐
    • 双 NVL72: ~$3M/年折旧 + $0.3M/年电费 ≈ $3.3M/年 → $3.3M / (25000×3600×8760) ≈ $4.2/百万token
    • 单 NVL576: ~$6M/年折旧 + $0.5M/年电费 ≈ $6.5M/年 → $6.5M / (135000×3600×8760) ≈ $1.5/百万token

结论:NVL576 的每 token 成本约为双 NVL72 的 35%。 背板方案虽然硬件成本翻倍,但算力提升 7 倍,折算到每 token 的成本反而大幅降低。

但有一个重要前提:上面的计算假设 NVL576 的可用率(uptime)与双 NVL72 相同。实际上,由于背板返厂的 MTTR 远高于铜缆换件,NVL576 的实际可用率可能低 5-10%。如果按 90% 可用率修正,每 token 成本上升到 ~$1.7/百万token,仍然是双 NVL72 的 40%。

对客户的实际含义:如果你只买得起 1-2 台 NVL72,铜缆方案仍然是合理选择。但如果你在规划一个 100+ 柜的 AI 工厂,NVL576 的每 token 成本优势是不可忽视的——前提是你能接受更长的维修周期和更高的前期投入。


三、互联架构演进:NVLink 5 → NVLink 6

3.1 NVLink 5(Blackwell 架构)

核心参数:

  • SerDes: 100G→200G
  • 单GPU: 18链路×100GB/s双向 = 1.8TB/s
  • NVSwitch: 72端口×2×200Gbps = 14.4TB/s双向
  • SHARP引擎:交换机内in-network reduction,all-reduce通信量减少N倍
  • Scale-Out: CX-7 400Gb/s + Quantum-2 IB / Spectrum-X 以太网

SHARP的具体作用值得展开。 传统all-reduce中,每个GPU发送完整数据到所有其他GPU(或通过Ring/Tree算法),通信量随GPU数线性增长。SHARP在NVSwitch内直接做归约运算——数据到达交换机时就被reduce,不再需要传回GPU再做。

实际效果:72 GPU的all-reduce,不使用SHARP时每GPU需要发送71份梯度副本,使用SHARP后每GPU只需发送1份到交换机,交换机归约后再广播结果。通信量减少约N/2倍(N=参与GPU数)。

这对MoE模型尤其关键:DeepSeek-R1的Expert Parallelism需要all-to-all通信来路由token到正确的专家,SHARP直接加速了这一步骤。

3.2 NVLink 6(Rubin 架构)

变化不仅是带宽翻倍:

  • SerDes: 200G→224G(+12%,翻倍来自通道数翻倍)
  • 单GPU: 3.6TB/s
  • 控制平面韧性:控制通道独立于数据通道,瞬时错误不影响连接状态
  • 部分部署运行:部分托盘故障→降级运行而非整机不可用
  • 交换托盘热插拔:NVSwitch在线更换

运维韧性为什么重要? NVL72单点故障影响72 GPU已很大。NVL576无此能力→任一组件故障=576 Die不可用。这些功能是为NVL576规模化铺路。

"部分部署运行"的具体含义:如果18个计算托盘中某一台故障,系统不需要整机下线。NVLink 6交换机可以重新配置拓扑,将故障节点隔离,剩余节点以降级模式继续运行。这类似于RAID阵列中一块盘故障时阵列降级运行的思路。在576-Die的系统中,这种能力不是"nice to have"而是"must have"——576个Die的故障率远高于72个Die。

带宽验证:72 × 3.6TB/s ÷ 2 × 2 = 259.2TB/s ≈ 260TB/s [与官方吻合]

3.3 拓扑扩展

拓扑演进:NVL72→NVL144→NVL576 三代拓扑对比
拓扑演进:NVL72→NVL144→NVL576 三代拓扑对比

NVL576分层全互联的架构性妥协:

  • 区域内:all-to-all单跳NVSwitch,延迟=NVL72
  • 区域间:需经背板,可能2跳(源区NVSwitch→背板→目标区NVSwitch)
  • 区域间带宽:受背板差分线对数限制

在NVL72中所有GPU对等。NVL576中跨区通信延迟/带宽不如区域内。MoE的Expert Parallelism需考虑这种非均匀性——软件调度必须感知拓扑。这正是Dynamo Smart Router的工作之一:将专家分配到区域内以减少跨区通信。


四、芯片迭代:GPU、CPU、LPU三线并进

4.1 GPU:Die数量指数增长与单Die算力悖论

架构 Die/封装 总Die 单封装FP4 单Die FP4 HBM
Blackwell 2 72 ~20P ~10P 192GB HBM3e
Blackwell Ultra 2 72 ~30P ~15P 288GB HBM3e
Rubin 2 72 ~100P ~50P 288GB HBM4
Rubin Ultra 2+2模块化 576 ~104P ~26P 1TB HBM4e

Rubin Ultra单Die算力(~26 PFLOPS)反而低于Rubin(~50 PFLOPS/Die)。原因:4-Die封装共享HBM4e接口和NVLink带宽,单Die算力密度被均摊。系统总算力提升更多来自规模扩展。

HBM4 的质变:Blackwell 架构 HBM3e 带宽8TB/s,Rubin 架构 HBM4 达22TB/s(2.75倍)。这个带宽跳跃才是Rubin单Die性能飞跃的关键推手——很多LLM算子在Decode阶段是Memory Bandwidth Bound,HBM带宽直接决定实际吞吐。

4.2 CPU:从Grace到Vera——Agentic AI时代的角色质变

Grace CPU定位从"GPU附属"转向"推理调度中枢"。Vera CPU核心数翻倍、内存带宽提升,支撑Dynamo Planner的实时决策、Smart Router的Radix Tree遍历、多agent并发编排。

4.3 LPU:Groq 3加冕——"第七成员"的推理专用引擎

LPU不是GPU替代品,而是推理专用加速层。GPU的HBM容量和计算密度适合Prefill/Attention;LPU的SRAM带宽(150TB/s/芯片,约7倍HBM4)适合FFN Decode。通过Dynamo编排,AFD(Attention-FFN分离)将推理拆分到两种硬件上。

4.4 系统设计比率演进:Roofline模型下的硬件耦合逻辑

比率 Hopper Blackwell Rubin 趋势
HBM/算力(FP8) ~597 ~563 ~1136 FLOPs/Byte ↑ 恶化
HBM/NVLink 3.7x 4.4x 6.1x ↑ 恶化
L2/专家权重 0.06% 0.05% 0.06% → 停滞

设计哲学总结:一个耦合优化问题

把三个比率放在一起看,NVIDIA 的系统设计逻辑是:

推理瓶颈因果链:算术强度→Memory Bound→带宽补偿方案→MoE通信优化
推理瓶颈因果链:算术强度→Memory Bound→带宽补偿方案→MoE通信优化

没有哪个参数是独立优化的。 HBM 带宽决定了 Decode 性能的天花板,NVLink 带宽决定了 EP 的可行宽度,L2 Cache 决定了高频专家的复用效率,FP4/NVFP4 是所有带宽约束的统一补偿方案。NVIDIA 每一代都在这个耦合系统中找最优平衡点。

理解了这套逻辑,再看前面的表格就不是一堆孤立的数字,而是一个精密耦合的工程设计——每个参数的变化都有"因为...所以..."的因果链。


五、实测数据演进:从 H100 到 GB300 NVL72,推理性能的量化跨越

这一章是本文最重要的新增内容。之前分析的都是规格和推算,现在用实际测试数据验证理论预期。

5.1 跨代推理性能对比(第三方基准)

以下数据来自 SemiAnalysis InferenceMAX 报告、CoreWeave 实测、MLPerf Inference v5.1/v6.0,测试模型为 DeepSeek-R1 671B(MoE架构)。

指标 H100 HGX 8卡 GB200 NVL72 GB300 NVL72 提升倍数(vs H100)
单GPU吞吐(DeepSeek-R1) ~1.2 tok/s/GPU ~75 tok/s/GPU ~226 tok/s/GPU 188x(GB300)
FP4 vs FP8 FP8 FP8 FP4 FP4额外2x
并行策略 TP16 EP64 EP64+PD分离+Wide-EP 策略演进
NVLink域 8 GPU 72 GPU 72 GPU 域扩大9x
HBM容量/GPU 80GB 192GB 288GB 3.6x

数据来源与解读

  1. H100基线:~1.2 tok/s/GPU,TP16意味着16卡张量并行,需要4个8卡节点通过IB互联。All-to-all通信跨IB网络,延迟是主要瓶颈。MoE的Expert Parallelism在8卡域内无法有效展开——256个专家分配到16个GPU上每个GPU承载16个专家,Expert All-to-All的通信量巨大。

  2. GB200 NVL72:~75 tok/s/GPU [SemiAnalysis/Signal65],这是在FP8精度、EP64并行策略下的数据。75 tok/s/GPU × 72 GPU = 5400 tok/s 整机吞吐。性能提升来自三个因素:

    • NVLink域从8→72:EP通信不再经过IB网络,all-to-all延迟从毫秒级降到微秒级
    • HBM 80→192GB:可容纳更大的KV Cache,减少offload
    • 30TB共享内存:CPU+GPU统一寻址,KV Cache卸载路径更短
  3. GB300 NVL72:~226 tok/s/GPU [SGLang/NVIDIA联合测试],FP4精度,ISL=128K/OSL=8K。226 tok/s/GPU × 72 = 16,272 tok/s 整机吞吐。相比GB200提升3倍,来源:

    • FP4 vs FP8:算力翻倍(Blackwell Ultra原生支持FP4 Tensor Core)
    • 288GB HBM3e:更多显存容纳更长上下文+更多并发,128K上下文不再是瓶颈
    • FMHA kernel优化:注意力计算效率提升1.35倍 [SGLang]
    • PD分离+Wide-EP:Dynamo编排下的解耦推理(详见5.2节)
  4. MLPerf Inference v6.0纪录:GB300 NVL72在DeepSeek-R1服务器端测试中达到8064 tokens/sec/GPU [MLPerf v6.0]。注意这个数字和226的差异——MLPerf使用的是离线/服务器端场景,可能采用不同的batch策略和ISL/OSL配置。MLPerf v5.1→v6.0单版本提升就达2.77倍,说明软件优化(TensorRT-LLM内核融合+Dynamo PD分离)的贡献巨大。

5.2 软件栈的代际演进

硬件规格的提升只是故事的一半。从H100到GB300,软件栈的演进同样关键——甚至在某些场景下,软件优化的贡献超过了硬件升级。

软件能力 H100 时代(2023) GB200 时代(2024) GB300 时代(2025-26) Vera Rubin(2026H2)
推理引擎 TensorRT-LLM初版 TensorRT-LLM成熟 TRT-LLM + vLLM + SGLang 同左
解耦推理 Dynamo PD分离 Dynamo 1.0 AFD
KV Cache管理 GPU显存内 显存+CPU offload 分布式KV Cache Pool 多级存储卸载
并行策略 TP8 TP+PP+DP +Wide-EP+Chunked-PP +AFD(GPU+LPU)
精度 FP16/BF16 FP8 FP8+FP4 NVFP4
路由 Round-robin 负载均衡 LLM感知智能路由 拓扑感知路由
GPU调度 静态分配 静态分配 动态Planner 动态+跨硬件

关键洞察:从GB200到GB300,硬件规格增量不大(FP4支持+HBM容量+CX-8),但推理性能提升了3倍。 这个3倍主要来自软件:Dynamo的PD分离、Wide-EP、Chunked-PP、FMHA kernel优化。这是典型的"硬件定义天花板,软件决定实际性能"的案例。

DeepSeek-R1 671B 在 GB200 NVL72 上 Dynamo 解耦推理 vs 传统批处理的吞吐对比 — 30倍性能提升
DeepSeek-R1 671B 在 GB200 NVL72 上 Dynamo 解耦推理 vs 传统批处理的吞吐对比 — 30倍性能提升

5.3 SemiAnalysis基准:30倍→100倍的完整曲线

SemiAnalysis InferenceX v2报告提供了最完整的跨代对比。核心结论:

黄仁勋在GTC 2024宣称的"30倍推理提升"确实保守了。 实测数据:

对比场景 基线 GB300 NVL72性能 倍数
FP4 vs FP8(H100) H100 FP8 GB300 FP4 ~100x
FP8 vs FP8 H100 FP8 GB300 FP8 ~65x
FP8 vs FP8(同样Dynamo) H100+Dynamo GB300+Dynamo ~30x
MoE场景 vs AMD MI355X GB300 ~28x

但要注意场景依赖性。 100倍是"极端优化场景"——FP4精度、Wide-EP64、PD分离、128K长上下文。在短上下文(<4K)、稠密模型、FP8精度下,提升倍数会显著收窄。

功耗效率的演进更有说服力:

指标 H100 GB300 NVL72 倍数
每Watt吞吐 基线 5x [NVIDIA官方]
每token成本 基线 1/35 [NVIDIA官方]
vs AMD MI355X per token成本 N/A 1/15 [Signal65]

5.4 一个 Token 的完整旅程:DeepSeek-R1 在 GB300 NVL72 上

前面列了数字,但读者可能仍然缺乏"体感"。让我们追踪一个 Agentic 推理请求的完整生命周期,看看每个环节的时间都花在哪里。

场景:用户发送第10轮对话,ISL=128K(含前9轮上下文),期望 OSL=500 tokens。模型 DeepSeek-R1 671B MoE,256个路由专家,top-8 路由。

GB300 NVL72 推理请求时间线:从用户请求到流式输出的完整生命周期
GB300 NVL72 推理请求时间线:从用户请求到流式输出的完整生命周期

从时间轴中可以读出的关键洞察:

  1. Attention 是 Decode 的真正瓶颈(580μs vs FFN 44μs)。这是因为 KV Cache 随上下文长度线性增长,而 FFN 的专家权重大小固定。这解释了为什么 AFD(Attention-FFN 分离)有道理:把 Attention 留在 GPU(有 HBM 存 KV Cache),FFN 搬到 LPU(SRAM 带宽 7 倍于 HBM,FFN 纯权重加载极快)。

  2. NVLink 带宽在 EP 场景下绰绰有余(Expert All-to-All 0.3μs vs HBM 加载 44μs)。这不是巧合——NVIDIA 故意将 NVLink 带宽设计为"远超 EP 通信需求",确保 EP 不受互联瓶颈。真正的瓶颈永远在 HBM。

  3. Smart Router 的 KV Cache 复用节省了 ~99% 的 Prefill 计算(增量 4K vs 全量 128K)。在 Agentic 场景下,10 轮对话的 Smart Router 复用可能将总 Prefill 时间从秒级降到毫秒级。

  4. 单个 Decode token 的理论下限约 624μs,但实测是 4.4ms/GPU(含 batch 调度)。差距来自 batch 合并、GPU 调度开销、以及 Continuous Batching 的排队等待。这意味着软件调度效率还有 ~7 倍的优化空间


六、软件栈深度解析:Dynamo 为什么是"AI工厂的操作系统"

PD 分离 vs 传统推理 — 左侧为传统推理(Prefill+Decode同一GPU),右侧为解耦推理(Prefill和Decode分配到不同GPU组)
PD 分离 vs 传统推理 — 左侧为传统推理(Prefill+Decode同一GPU),右侧为解耦推理(Prefill和Decode分配到不同GPU组)

6.1 从Triton到Dynamo:推理框架的范式转移

2018年NVIDIA发布Triton推理服务器时,AI推理还是"单GPU跑单模型"的世界。Triton解决了框架统一问题(TensorFlow/PyTorch/ONNX统一部署),但面对2025-2026年的推理场景——671B参数MoE模型跨72 GPU分布式推理——它力不从心。

根本差异:Triton管理的是"模型部署",Dynamo管理的是"分布式推理编排"。具体来说:

  • Triton:一个请求→一个GPU处理→返回结果。模型再大也只是多切几份
  • Dynamo:一个请求→拆成Prefill+Decode两阶段→分配到不同GPU组→KV Cache在GPU间迁移→动态调整GPU分配→合并结果。每个阶段可以用不同的并行策略

这种"拆请求"的能力是Dynamo的核心创新,也是NVIDIA称其为"AI工厂的操作系统"的原因——它不只是部署模型,而是编排整个推理流水线。

NVIDIA Dynamo 架构 — Planner、Smart Router、KV Cache Manager、NIXL 四个核心组件及其与推理 Worker 的关系
NVIDIA Dynamo 架构 — Planner、Smart Router、KV Cache Manager、NIXL 四个核心组件及其与推理 Worker 的关系

6.2 Dynamo架构:四个核心组件

Dynamo 架构:四个核心组件及其与推理 Worker 的关系
Dynamo 架构:四个核心组件及其与推理 Worker 的关系

1. Planner(GPU规划器)

这不是简单的负载均衡。Planner面临的核心问题是:每个请求的Prefill和Decode阶段负载极度不均匀。

举例:一个128K上下文的摘要请求(ISL=128K, OSL=500),Prefill需要处理128K token的计算密集型前向传播,Decode只需要逐个生成500个token。如果Prefill GPU和Decode GPU各分配一半,长输入请求会导致Prefill GPU积压,Decode GPU空闲。

Planner的决策维度:

  • Prefill/Decode GPU比例:根据实时ISL/OSL分布动态调整
  • 分离 vs 聚合:短输入请求(ISL<2K)可能不需要PD分离,直接在一个GPU上聚合处理更高效
  • GPU数量弹性:请求高峰时临时分配更多GPU给Prefill,低谷时回收

这个决策是实时的——Planner持续监控每个GPU的队列深度、KV Cache占用率、TTFT(首token延迟)、ITL(token间延迟),每秒可能做出数十次调度决策。

2. Smart Router(智能路由器)

传统负载均衡用round-robin或最少连接数路由。Dynamo的Smart Router不同:它用Radix Tree追踪所有GPU上的KV Cache内容,计算新请求与已有KV Cache的重叠度,将请求路由到KV Cache匹配度最高的GPU。

为什么这很重要?考虑一个Agentic场景:用户与Agent进行了10轮对话,前9轮的KV Cache已经在GPU-7上。第10轮请求到达时,Smart Router将请求直接路由到GPU-7,复用已有的KV Cache,省去了重新计算前9轮上下文的计算量。

NVIDIA给出的数据:在2节点HGX-H100(16 GPU)、DeepSeek-R1-Distill-Llama-70B、10万真实R1请求(平均ISL/OSL=4K/800)的测试中,Smart Router相比round-robin将响应时间显著缩短,KV Cache复用率提升数倍。[NVIDIA开发者博客]

3. KV Cache Manager(KV缓存管理器)

KV Cache是LLM推理中最大的内存消耗项。128K上下文、FP8精度、671B MoE模型——单请求的KV Cache可达数百MB到数GB。72个GPU上同时运行数百个请求,KV Cache总量可达数十到数百GB。

KV Cache Manager实现三级存储层次:

  • GPU HBM(最快,最贵):活跃请求的KV Cache
  • CPU内存(中等):近期完成但可能复用的KV Cache
  • SSD/网络存储(最慢,最便宜):长期存储但可能被复用的KV Cache(如system prompt)

关键创新:KV Cache在三级存储间的迁移是异步的,不阻塞推理。GPU生成完token后,KV Cache在后台被搬到CPU内存;新请求到来时,如果KV Cache在CPU内存中,通过NVLink-C2C高速搬回GPU HBM。

Grace CPU的NVLink-C2C带宽900GB/s(Vera提升到1.8TB/s),意味着1GB的KV Cache从CPU内存搬到GPU HBM只需~1ms(Grace)或~0.5ms(Vera)。这对性能几乎无感知。

4. NIXL(NVIDIA Inference Transfer Library)

NIXL是Dynamo中最低调但最关键的组件——它解决了"GPU间KV Cache高速传输"的问题。

在PD分离架构中,Prefill完成后需要将KV Cache从Prefill GPU传到Decode GPU。如果这两个GPU在同一NVL72机架内,通过NVLink传输130TB/s,速度很快。但如果跨机架(Scale-Out场景),传统方法需要GPU→CPU内存→网卡→网络→网卡→CPU内存→GPU,多次拷贝。

NIXL通过GPUDirect RDMA实现GPU→GPU直传,跳过CPU内存拷贝。结合CX-8的800Gb/s带宽,跨机架KV Cache传输延迟从毫秒级降到百微秒级。[NVIDIA开发者博客]

6.3 Dynamo在不同超节点上的表现差异

软件优化 无NVL72(8卡) GB200 NVL72 GB300 NVL72 Vera Rubin NVL72
PD分离效果 有限(EP域小) 显著(72卡EP域) 3x于GB200 更高(260TB/s)
Wide-EP 不可行(EP>8需跨节点) EP64可行 EP64+FP4 EP72+NVFP4
KV Cache Offload CPU内存有限 30TB共享 40TB共享 更多+SSD层
Smart Router 8卡无需复杂路由 72卡有必要 72卡有必要 576 Die必须有
Dynamo实测提升 ~2x(Llama 70B) ~30x(DeepSeek-R1) 同左+FP4额外2x 待验证

核心洞察:Dynamo的价值随超节点规模非线性增长。 在8卡HGX上,PD分离的收益有限——因为EP域太小,MoE的Expert All-to-All通信仍然要跨IB网络。在72卡NVL72上,EP64可以在NVLink域内完成,通信延迟降两个数量级,Dynamo的编排能力才真正发挥。

这意味着:NVL72的硬件优势不是独立的,而是与Dynamo耦合的。 没有Dynamo,NVL72只是一个更大的GPU池;有了Dynamo,72个GPU才真正"变成一个巨型GPU"。

6.4 SHARP:网络内计算的隐藏加速器

SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)是NVSwitch中的硬件加速引擎,直接在交换机内执行all-reduce/broadcast等集合通信操作。

为什么这很重要? 以DeepSeek-R1的Expert Parallelism为例:

256个专家分配到64个GPU(Wide-EP64),每次token路由需要all-to-all通信。传统方式:每个GPU发送64份梯度到所有其他GPU,总计64×64=4096次传输。SHARP方式:每个GPU发送1份到NVSwitch,NVSwitch在内部完成reduce,再广播结果——通信量减少约32倍。

SHARP在NVLink 5时代已有,但NVLink 6交换机增强了SHARP引擎的吞吐量和支持的集合通信类型。在MoE推理场景中,SHARP对Expert All-to-All的加速效果可达2-4倍(取决于GPU数量和专家分配策略)。[NVIDIA]


七、功耗与散热:从冷板到微通道

架构 单GPU功耗 机架功耗 散热方案 每EFLOPS功耗
Blackwell ~1000W ~120kW 冷板式液冷 167 kW/EFLOPS
Blackwell Ultra ~1400W ~140-150kW 冷板液冷+增强 130 kW/EFLOPS
Rubin ~2000W ~200kW 全液冷+微通道冷板 56 kW/EFLOPS
Rubin Ultra ~2000W+ ~400+kW 全液冷+微通道+相变(可能) 27 kW/EFLOPS

2000W/GPU是冷板式液冷的物理极限。 原因:

芯片面积固定(~800mm²),热流密度 = 2000W / 800mm² ≈ 2.5 W/mm²。传统冷板的微通道只能覆盖芯片表面的一部分,边缘散热效率下降。

超过这个阈值需要:

  1. 微通道盖板:在GPU盖板内加工微小流道(50-200μm),冷却液"贴身"带走热量。制造工艺类似半导体光刻,成本高但效果好——温度梯度从传统冷板的10-15°C降到5°C以内
  2. 冷板+浸没复合:冷板带走~60%,氟化液浸没带走~40%。浸没冷却的沸点冷却(两相浸没)在芯片表面形成气泡带走热量,散热效率极高但氟化液成本昂贵(3M Novec系列约$500/L)
  3. 相变冷却:低沸点介质(电子氟化液)在芯片表面蒸发吸热。蒸气上升→冷凝→回流,形成自循环。无需泵驱动,但系统设计复杂度大幅提升

Rubin Ultra散热方案尚未完全公开,多供应链信源指向微通道+相变复合方案。[第三方,未验证]

一个值得计算的数据:Vera Rubin NVL72 机架~200kW,假设PUE=1.1,机房需提供~220kW电力和冷却能力。Rubin Ultra NVL576 机架~400+kW,如果PUE不变,单个机柜需要~440kW——这已经是一个中型企业数据中心的总功率。超节点的功耗增长正在逼近基础设施极限。

微软Azure已部署全球首个GB300 NVL72生产集群——64组液冷机架,4608个Blackwell Ultra GPU。[第三方] 要部署等量Rubin机架,功耗将从~9MW增至~13MW,对现有数据中心的供电和散热系统构成巨大压力。

从能效角度看好消息是:每EFLOPS功耗从Blackwell的167kW降到Rubin Ultra的27kW(6倍改善)。但绝对功耗增长速度(120→400kW)超出了多数数据中心的承受能力。AI数据中心的建设速度正在被供电基础设施拖后腿。


八、NVL144去哪了?一个被跳过的超节点

这是超节点演进中最容易被忽略的转折点。

2025年10月GTC DC大会,NVIDIA宣布Vera Rubin NVL144——144 GPU的双机架NVLink域。官方规格:3.5 EFLOPS FP4推理,75TB高速存储,NVLink+CX9通信带宽分别260TB/s和28.8TB/s。

但在GTC 2026(2026年3月)路线图中,NVL144被降级为"双NVL72并联"方案,而非独立单机架产品。

我的判断:两个原因。

物理约束:224G SerDes在铜缆上的传输距离极限约2米(vs 200G的2-3米)。NVL144需要双机架NVLink域,意味着铜缆要跨越两个机架间的距离(至少0.5-1米的走线+连接器)。在224G速率下,这个距离的信号完整性无法保证。即使使用PCB内嵌铜走线(Vera Rubin NVL72方案),跨机架连接仍然需要某种外部电缆或连接器。

产品逻辑:客户可以直接买两台NVL72,通过CX-9 InfiniBand(1.6Tb/s)互联,实现近乎等价的Scale-Out性能。独立NVL144需要额外的NVLink跨机架交换硬件(成本高、可靠性风险大),但性能增益有限——不值得为此开发一个独立产品。

更深层的产品节奏含义:NVIDIA选择了"跳过中间态,等待终局方案"。真正的Scale-Up扩展被推迟到Rubin Ultra NVL576——通过正交背板在单机柜内实现576-Die互联,完全绕过跨机架铜缆。这意味着:

  • NVL72 是唯一成熟的Scale-Up单元,在Blackwell和Rubin两代都保持72-GPU规模
  • NVL576 是NVIDIA对Scale-Up扩展的终极回答,但需要等到2027H2
  • 中间的Scale-Out(CX-9 InfiniBand/Spectrum-X)在2026-2027年承担大部分多机架扩展任务

这对客户的影响:2026-2027年,你的选择是"单NVL72"或"多NVL72+InfiniBand"。没有"单NVL144"这个选项。


九、Vera Rubin POD:五种机架构成一台超级计算机

GTC 2026披露的Vera Rubin POD是超节点概念的终极形态——5种专用机架组成一台AI超级计算机

机架类型 角色 核心组件 关键能力
NVL72机架 计算引擎 72 Rubin GPU + 36 Vera CPU 训练+Prefill+Attention
LPX机架 推理加速 256 Groq 3 LPU Decode FFN+Speculative Decoding
STS存储机架 KV Cache扩展 BlueField-4 DPU + SSD 推理上下文记忆存储
XTS机架(以太网) Scale-Out扩展 Spectrum-X以太网交换 跨POD以太网互联
XTS机架(IB) IB扩展 Quantum-X800 IB交换 跨POD InfiniBand互联

完整POD规格:40机架,~20000 Die,60 EFLOPS,10 PB/s扩展带宽,~1.2万亿个晶体管。[官方]

这不是"超节点"——这是一台AI超级计算机。NVIDIA从"卖GPU芯片"到"卖AI超级计算机"的产品形态转变,在POD架构中体现得最清晰。

Dynamo软件栈是串联这一切的关键——它负责将推理请求拆分为Prefill(→NVL72)和Decode(→LPX),管理KV Cache的卸载和共享(→STS),协调跨POD的负载均衡(→XTS)。没有Dynamo,这五种机架只是互不相干的硬件。有了Dynamo,它们是一个有机整体。

POD对软件栈的要求远超当前Dynamo能力。 AFD(Attention-FFN Disaggregation)需要跨GPU和LPU两种异构硬件编排推理流水线,这在2026年仍处于早期阶段。Dynamo 1.0支持PD分离和Wide-EP,但AFD跨硬件编排是Vera Rubin量产后才能真正考验的能力。

9.1 AFD 实战:一个跨三种硬件的推理请求

场景:同一个 Agentic 请求(ISL=128K, OSL=500),但这次跑在完整的 Vera Rubin POD 上——NVL72 做 Attention,LPX 做 FFN Decode,STS 做 KV Cache 长期存储。

AFD 实战:跨 NVL72 + LPX + STS 三种硬件的推理请求完整流程
AFD 实战:跨 NVL72 + LPX + STS 三种硬件的推理请求完整流程

AFD 的关键洞察:

  1. Attention 停在 GPU,FFN 搬到 LPU,原因不在于"哪个更快",而在于数据特征。 KV Cache 随上下文线性增长(128K→256GB),只有 GPU 的 HBM(288GB/Rubin)能存下;FFN 专家权重固定大小(44MB/专家),LPU 的 SRAM(0.5GB/LPU)+ DDR(256GB/Tray)足够。数据特征决定硬件选择,不是反过来。

  2. AFD 的额外传输开销(~10μs/token 以太网)相对 Attention 延迟(~580μs)可忽略。 这意味着 AFD "几乎免费"——开销不到 2%。但前提是有足够的网络带宽和低延迟以太网(Spectrum-X)。

  3. Speculative Decoding 是 LPU 的杀手级能力。 LPU 的确定性执行(没有 GPU 的 warp divergence 和缓存抖动)使得一次前向传播的时间完全确定,可以精确预测哪个候选 token 会被接受。GPU 做不到这一点——其执行时间的方差(变异系数 CV≈0.3-0.5)使得投机解码的效率大打折扣。

AFD 跨硬件编排的工程挑战: 上面描述的流程需要 Dynamo 同时管理 CUDA(GPU)和 Groq 编译器(LPU)两种编程模型,在运行时动态选择目标硬件并管理跨硬件数据传输。Dynamo 1.0 支持 PD 分离和 Wide-EP,但 AFD 跨硬件编排是 Vera Rubin 量产后才能真正考验的能力——这是 NVIDIA 收购 Groq 后最大的软件工程挑战。


十、风险、挑战与反面论证

10.1 正交背板不是万能药

可维护性倒退是最大的问题。铜缆架构中,任一链路故障可以定位到具体铜缆并更换(耗时但可行)。正交背板中,Mezzanine连接器焊点或内部走线故障→整柜返厂。在一个144封装的机柜中,这意味着144个GPU同时不可用,直到维修完成。

这是否可接受取决于MTBF。NVIDIA官方没有公布NVL576的MTBF预期,但考虑到576 Die+数千连接器+78层PCB的系统复杂度,行业估算首次系统级MTBF可能在5000-10000小时范围。[第三方,不确定] 如果按8000小时MTBF计算,一个1000柜的AI工厂每月平均会有~90次需要整柜返厂的故障事件。这个数量级是否可接受?需要看维修时间(MTTR)和冗余设计。

产能瓶颈:M9 CCL(生益科技、台光电子)+ Q布(菲利华70%份额)+ HVLP4铜箔(德福科技等)的全球产能有限。国金证券研报指出,供需失衡预计持续到2027年。这意味着Rubin Ultra NVL576的交付节奏可能不是由芯片产能决定,而是由PCB产能决定——这在NVIDIA历史上是第一次"非芯片因素决定交付"。

10.2 "8年1000倍"的基线问题

NVIDIA宣称"8年1000倍算力增长"。但拆解这个数字:

  • 数据格式变化:FP16→FP8→FP4,每次"精度降级"名义上算力翻倍。但这不是"同一计算更快",而是"用更少的位数近似同一结果"
  • 多Die封装:Blackwell从1-Die→2-Die(算力翻倍但晶体管翻倍),Rubin Ultra→4-Die(同理)
  • 系统规模:NVL72→NVL576,Die数增8倍

如果看**单Die、同精度(FP8)**的实际性能提升:Hopper→Blackwell约1.5-2x(TSMC 4N→4NP制程红利有限),Blackwell→Rubin约3-3.5x(TSMC 4NP→N3P + HBM4 + 架构优化)。真正的单Die代际提升在2-3倍范围,远低于"1000倍"暗示的年化增速。

这不是说NVIDIA在造假——系统级算力确实在快速增长。但增长的主要来源正在从"芯片更强"转向"系统更大+精度更低"。

实测数据也印证了这一点:从H100到GB300 NVL72的100倍提升中,FP4贡献2x、NVLink域扩大贡献~5x(EP效率)、Dynamo PD分离贡献~3x、HBM容量/带宽贡献~3x。硬件和软件各占约一半功劳。

10.3 光子学才是终局

Intel SC25报告明确指出:2028年是铜缆的终局。NVL576的正交背板本质是"用PCB铜走线替代铜缆"——仍然是铜

NVIDIA已在Spectrum-X交换机中引入200G硅光CPO(共封装光学),但尚未扩展到GPU间NVLink域。Feynman 架构(2028年量产)预计将NVLink的LPU C2C总线切换到CPO架构。[第三方,基于NVIDIA路线图推演]

如果成真,正交背板可能只存在一代(Rubin Ultra)就被光子互联取代。这意味着78层M9 PCB正交背板的高额投资,其产品生命周期可能只有1-2年。

但CPO本身也有风险:硅光的耦合效率、封装良率、功耗(激光器阵列的功耗不容忽视)、成本(目前CPO模块单价远高于铜互联)都是未解的工程挑战。

10.4 功耗墙仍然无解

从NVL72到NVL576,机架功耗~120→400+kW(3.3倍)。按此趋势:

  • Feynman 架构(~2028):可能达到1MW/机柜
  • 这已接近中型数据中心总功率
  • 北美数据中心电力和选址瓶颈日益突出
  • 微软、Google、Meta等已在核能、地热等非常规能源上布局

性能提升的边际成本正在急剧上升。 每EFLOPS的功耗从Blackwell的~120kW/0.72EFLOPS = 167kW/EFLOPS变为Rubin Ultra的~400kW/15EFLOPS = 27kW/EFLOPS。看起来能效在提升(6倍),但绝对功耗的增长速度超出了大多数数据中心的承受能力。

10.5 软件栈的成熟度风险

Dynamo在GB300 NVL72上的表现已经过验证(30倍提升),但AFD(Attention-FFN Disaggregation)跨GPU+LPU的编排还处于早期。几个具体风险:

  1. 异构编排复杂度:GPU和LPU的编程模型完全不同(CUDA vs Groq编译器),Dynamo需要在运行时动态选择目标硬件并管理跨硬件的KV Cache传输
  2. AFD的适用场景有限:只有推理场景受益,训练不需要LPU。这限制了LPX机架的利用率——如果推理负载不足,256个LPU处于空闲状态
  3. 开放生态竞争:vLLM、SGLang等开源框架也在快速发展PD分离和Wide-EP能力。如果社区方案在特定场景达到Dynamo 80%的性能,部分客户可能选择不绑定NVIDIA全栈

十一、总结与判断

核心结论

  1. 铜缆时代已进入倒计时。 NVL72是铜缆巅峰,NVL576的正交背板是铜的最后一次大规模应用。正交背板本质上是"铜走线替代铜缆",仍然是铜。2028年后光子学将接管核心互联。

  2. 超节点扩展从"加机架"转向"加Die"。 NVL576的576个Die在物理上仍在单机柜内。NVIDIA的扩展策略是提升单柜密度,而非增加柜间互联。这是一个根本性的架构哲学转变。

  3. GPU+CPU+LPU三芯片架构已成型。 GPU负责训练+Prefill,CPU负责编排+存储管理,LPU负责低延迟Decode。这不是硬件叠加,而是系统级任务解耦。AFD架构只对Agentic推理有意义——训练仍纯GPU。

  4. 软件栈与硬件同等重要。 从H100到GB300的100倍推理提升中,Dynamo PD分离、Wide-EP、Smart Router等软件优化贡献了约一半。硬件定义天花板,软件决定实际性能。NVL72的硬件优势与Dynamo耦合——没有Dynamo,NVL72只是一个更大的GPU池。

  5. NVL144被跳过,说明跨机架铜缆扩展在224G SerDes时代不经济。 NVIDIA选择等待正交背板(Rubin Ultra)和CPO(Feynman)解决Scale-Up扩展。2026-2027年,NVL72是唯一成熟的Scale-Up单元。

  6. 功耗和供应链是比算力更大的挑战。 400+kW/机柜散热、M9 PCB产能瓶颈、Q布供给限制,这些"非技术"因素可能比芯片设计更影响交付节奏。

  7. "8年1000倍"的基线需要审慎看待。 系统级算力确实快速增长,但主要来源正从"芯片更强"转向"系统更大+精度更低+软件更优"。单Die、同精度的实际代际提升在2-3倍。

什么条件下这些判断会错

  • 如果CPO量产良率远低于预期,正交背板可能延续到Feynman 架构
  • 如果HBM4e产能无法支撑NVL576的1TB/GPU配置,Rubin Ultra规格可能缩水
  • 如果推理专用ASIC(Google TPU、AWS Trainium)在特定场景性价比超过LPU,AFD架构推广受阻
  • 如果功耗增长速度超过数据中心建设速度,NVIDIA可能被迫推出"低功耗版"超节点
  • 如果vLLM/SGLang等开源方案在PD分离和Wide-EP上追赶太快,Dynamo的绑定优势可能被削弱
  • 如果Rubin Ultra的2+2模块化封装在系统级PCB上引入过多信号完整性问题,可能回退到单封装4-Die方案(但良率风险更高)

下一个观察节点

  • ✅ 2026-05-20:NVIDIA Q1 FY2027 财报已发布 — 核心数据如下:
    • 总营收 $81.6B(YoY +85%,QoQ +20%),超指引上限 $78B
    • 数据中心 $75.2B(YoY +92%),计算 $60.4B + 网络 $14.8B(YoY +199%,NVLink 爆发验证了文章对互联价值的判断)
    • Q2 指引 $91B ±2%,不含中国数据中心收入
    • Vera Rubin:Jensen 称 "off to a tremendous start",预期比 Grace Blackwell 更成功,全程供不应求
    • Vera CPU:CFO Kress 称打开 $2000亿 CPU 市场,今年目标 $200亿 CPU 收入
    • Groq LPU:Jensen 明确定位为 "niche product"——"throughput is low, use case is not broad"(参见 4.3 节更新)
    • 报告结构重组:新分为 Hyperscale($38B)+ ACIE($37B)+ Edge($6.4B),Hyperscaler 占数据中心收入约一半
    • 中国断供:4月被通知出口需许可证,Q2 指引不含中国数据中心收入
  • 2026-06-01~05:Computex / GTC Taipei——更多Rubin架构细节、软件栈更新
  • 2026H2:Vera Rubin NVL72量产交付——Dynamo 1.0在260TB/s NVLink域上的实测表现
  • 2027H2:Rubin Ultra NVL576预期量产——正交背板方案首次实战、AFD跨硬件编排验证

附录A:配图索引

以下图片来自 NVIDIA 官方或权威技术媒体,对应文章各章节。

图1:GB200 NVL72 机架实物图(NVIDIA 官方)

对应章节:二.1 GB200 NVL72:铜缆的巅峰

来源:NVIDIA 官方产品页

官方图中可清晰看到18个计算托盘(前部蓝色区域)、9个NVLink交换托盘(中部)和后部Cable Cartridge铜缆托盘。

图2:GB200 NVL72 计算托盘内部(ServeTheHome 拍摄)

对应章节:二.1 计算托盘结构

来源:知乎用户 @Matebook X Pro 解析文章

可以看到每托盘2×Grace CPU + 4×Blackwell GPU的布局,以及液冷板接口。

图3:NVLink 5 互连拓扑(NVIDIA 官方 GTC 2024)

对应章节:三.1 NVLink 5(Blackwell 架构)

来源:知乎分析

展示72 GPU与18 NVSwitch构成的完全二分图拓扑。

图4:GB300 NVL72 架构(NVIDIA 官方)

对应章节:二.2 GB300 NVL72

来源:NVIDIA 官方产品页

图5:Vera Rubin NVL72 机架(NVIDIA GTC 2026)

对应章节:二.3 Vera Rubin NVL72:无缆化开端

来源:ServeTheHome / NVIDIA GTC 2026

图6:Rubin Ultra NVL576 正交背板实物(NVIDIA GTC 2026 黄仁勋展示)

对应章节:二.4 Rubin Ultra NVL576:正交背板革命

来源:雪球用户 ServeTheHome 转载 NVIDIA GTC 2026 照片

来源:CSDN 架构解析(含NVIDIA官方架构图)

图7:NVLink 历代性能参数(NVIDIA 官方)

对应章节:三.1 / 三.2 NVLink 演进

来源:腾讯云开发者社区 GTC 2026 解析

图8:NVL576 Scale-Up 光铜混合架构(NVIDIA/供应链分析)

对应章节:三.3 拓扑扩展 / 十.3 光子学才是终局

来源:雪球技术分析

展示NVL576的第一层PCB正交背板(铜)+ 第二层CPO(光)的Hybrid架构。

图9:Rubin Ultra 封装调整(4-Die → 2+2 模块化)

对应章节:四.1 GPU Die数量悖论

来源:雪球机构分析

2026年3月末供应链反馈:Rubin Ultra从"单封装4-Die"调整为"2-Die基础单元 + PCB/CoWoP 2+2拼接"。总算力不变,但封装复杂度下降,系统级PCB复杂度上升。

图10:GB200 NVL72 液冷系统(NVIDIA 官方/行业分析)

对应章节:七 功耗与散热

来源:网易行业深度分析

图11:NVIDIA Dynamo架构图(NVIDIA 官方)

对应章节:六.2 Dynamo架构

来源:NVIDIA 开发者博客

展示Dynamo的Planner、Smart Router、KV Cache Manager、NIXL四个核心组件及其与推理Worker的关系。

图12:Dynamo 30倍性能提升实测(NVIDIA 官方)

对应章节:五.3 SemiAnalysis基准

来源:NVIDIA 开发者博客

DeepSeek-R1 671B在GB200 NVL72上,Dynamo解耦推理vs传统批处理的吞吐对比曲线。

图13:PD分离 vs 传统推理对比(NVIDIA 官方)

对应章节:六.1 从Triton到Dynamo

来源:NVIDIA 开发者博客

左侧为传统推理(Prefill+Decode同一GPU),右侧为解耦推理(Prefill和Decode分配到不同GPU组)。


注意:以上图片链接来自公开网络,可能存在时效性。如链接失效,建议访问对应原始文章获取最新图片。NVIDIA 官方图片推荐直接访问 nvidia.com 产品页或开发者博客。


附录B:数据来源汇总

数据点 来源 可信度
NVL72 130TB/s带宽 NVIDIA官方
NVL576 78层PCB NVIDIA GTC 2026
DeepSeek-R1 75 tok/s/GPU (GB200) SemiAnalysis/Signal65 中高
DeepSeek-R1 226 tok/s/GPU (GB300) SGLang/NVIDIA联合测试 中高
MLPerf v6.0 8064 tok/s/GPU MLCommons官方基准
GB300 vs H100 100x (FP4) SemiAnalysis InferenceX v2 中高
GB300 vs AMD MI355X 28x Signal65报告 中高
Dynamo 30x提升 (DeepSeek-R1) NVIDIA开发者博客 中(官方数据)
Rubin Ultra 2+2模块化封装 供应链反馈2026.03 中(未官方确认)
NVL576 MTBF 5000-10000h 行业估算 低(推算)
M9 PCB良率60-70% 供应链估算
Rubin Ultra功耗400+kW 推算 中低