← 返回观点 思考

数据中心网络的一条新路线:RNG 打开了什么可能性

AWS 在 2026 年 4 月悄悄把所有新建非 GPU 数据中心的默认网络架构从胖树换成了 flat topology(RNG)。路由器减少 69%,吞吐提升 33%。这不是实验,是生产默认。但 RNG 的意义不是「能不能替代胖树」——而是「胖树之外的设计空间被打开了」。

2026-06-05思考18 分钟阅读

2026 年 4 月,AWS 做了一件静悄悄但影响深远的事:所有全球新建的非 GPU 数据中心,默认网络架构从胖树(Fat Tree / Clos)切换为一种叫 RNG(Resilient Network Graphs)的扁平拓扑。路由器数量减少 69%,吞吐量最高提升 33%,网络设备功耗降低约 40%。

这不是实验。这是生产环境的默认选项。

消息直到 5 月 28 日才在 Amazon Science Blog 上公开。论文挂在 arXiv 上(2604.15261),作者包括华盛顿大学教授 Ratul Mahajan 和 UCSC 教授 C. Seshadhri——两位都是 Amazon Scholar。

RNG 的意义不在于它能不能替代胖树——那是结果,不是起点。真正值得关注的是:一条在数学上早就被证明更优、但工程上一直走不通的路线,被打通了。这意味着数据中心网络的设计空间突然变大了。以前只有胖树一个选项,现在有了第二个。而第二个选项的存在,会改变所有人重新审视第一个选项的方式。

这篇文章要做三件事:讲清楚 RNG 的原理和工程实现,标出它适用和不适用的边界,然后探讨这条新路线打开的可能性——特别是对推理集群和国内智算中心参考设计的影响。


胖树的根本问题:带宽被层级锁死了

胖树的核心设计是层级化的:服务器连到 Top-of-Rack(ToR),ToR 连到 Aggregation 交换机,Agg 连到 Spine。流量"先上后下",路径被层级锁死。

这个结构有一个数学上的死穴:容量不可复用(lack of capacity fungibility)

北京到上海的高速堵死了,北京到广州的高速空着。你用不了那条空路,因为你的目的地是上海,公路网的结构决定了你只能走那条固定路径。

论文给了一个精确的例子:12 个 ToR 做 all-to-all 通信,3:1 oversubscribed 胖树只能利用 ToR 上行容量的约 40%。60% 的带宽白白浪费。

胖树 vs 随机图:两种拓扑的核心差异
胖树 vs 随机图:两种拓扑的核心差异

这在单租户场景下问题不大——你可以按需规划流量。但在多租户的数据中心里,你不知道哪个租户什么时候会往哪里发流量,层级化带宽分配必然导致全局性的过度配置。这就是胖树成本居高不下的根源。

故障场景更致命:丢一个 Spine,一半流量直接受影响。随机丢 1% 的交换机呢?影响远大于 1%,因为层级结构放大了故障的"爆炸半径"。

数学家早就知道答案:随机图

1990 年代,数学家已经证明:最优路由网络的拓扑是随机图

准确地说,是具有高边扩展性(edge expansion)的随机图。核心性质是:对图中任意一小撮节点 S,从 S 连出去的边数总是很多。不存在瓶颈节点,不存在"所有流量必须经过这里"的咽喉要道。

如果用随机图建数据中心网络:

  • 每个交换机随机连 64 个其他交换机,没有层级
  • 任意两个交换机之间有很多条完全不同的路径可选
  • 某条路径堵了,换一条。某个交换机挂了,丢掉大约 1/n 的容量,剩下的照走

容量可复用、故障退化线性、不需要过度配置。理论上的完美拓扑。

胖树 vs 随机图:路径与容错的根本差异
胖树 vs 随机图:路径与容错的根本差异

但理论到工程之间隔了三个致命问题,挡了十几年。

三个致命问题

路由怎么做? 标准的最短路径在随机图上效果差——两个节点之间可能只有 1 条最短路径。想找多条独立路径做负载均衡,要用 k-shortest-paths。但 k=8 就需要 20-80 倍的转发表内存,商用交换机芯片放不下。k=64 勉强能跑,但中位数独立路径只有 35 条,oversubscription 仍然有 4.7:1。

线怎么拉? 随机图意味着随机连线。1000 个交换机,每个连 64 个随机邻居,32000 条光纤在机房里随机穿插。AWS 副总裁 Matt Rehder 试过:"We did do the effective spaghetti mess of cabling. It was extremely onerous." 更要命的是增量扩容:每加一个新交换机,要从全机房随机断开几十条已有线重新分配。运营上不可接受。

性能怎么预测? 随机图没有解析模型。你选了 1000 个交换机、每个 64 个 uplink,oversubscription 是多少?不知道,只能靠模拟试。运维团队没法从目标性能反推参数。

三个问题,任何一个没解决就进不了生产环境。RNG 的贡献是同时解决了三个


Spraypoint:先散开,再收拢

Spraypoint 是 RNG 的路由协议。它的核心洞察是:在随机图中,你不需要全局计算最优路径。源端把流量散开,宿端的"高扇入"自然会把流量收拢。

类比一下。你在北京给上海的朋友寄信。

胖树方式:所有信先送区邮局,再送市邮局,再送上海市邮局,再送区邮局。路径固定,市邮局挂了就全完了。

Spraypoint 方式:你把信随机交给身边 64 个朋友中的一个。每个人都有一张表,告诉你"如果要寄给上海的张三,往这个方向走"。信件像涟漪一样散开,然后逐层向目的地收拢。

具体机制分三步:

第一步,Spray(发散)。 源交换机收到一个包,目的地是 t。从自己的 64 个邻居中随机选一个(ECMP 哈希),把包发过去。

第二步,判断落在了哪一层。 围绕每个目的地 t,Spraypoint 预先计算了一个同心环结构:

  • WP₀(t):t 的直连邻居(约 64 个)
  • WP₁(t):每个 WP₀ 节点选 4 个邻居组成的集合(约 256 个)
  • IR(t):连接到 waypoint 但不在上面层次里的节点(大多数)
  • OR(t):不连接任何 waypoint 层次的节点(极少)

Spray 出去的包落在 WP₀(t)→2 跳到 t,落在 WP₁(t)→3 跳,落在 IR(t)→4 跳,落在 OR(t)→5 跳。

第三步,在每一层内部,参数 h 允许选择多个"t-parent"。 h=1 只选 1 个 t-parent,那条边坏了就没有备用。h=2 选 2 个,一条坏了还有另一条。h=3 选 3 个,但边际收益递减。

关键数字——为什么 h=2 是甜蜜点?

边不相交路径数 ≈ d·(1 - e^(-h))。

h=1:可用容量 63%。h=2:86%。h=3:95%。从 h=1 到 h=2 的跳变是 +23%,从 h=2 到 h=3 只有 +8.5%。指数衰减意味着 h=2 的性价比最高。

实际效果:n=1000, d=64, p=4, h=2 时,中位数找到 60+ 条边不相交路径。对比一下——8-shortest-paths 只有 5 条,64-shortest-paths 只有 35 条。Spraypoint 用商用交换机的标准硬件,跑出了比 64-shortest-paths 更好的路径多样性。

oversubscription 从 4.7:1(64-shortest-paths)降到了 3.25:1。

转发表需求:128 端口交换机、d=64、h=2 时,需要约 8K 条 ECMP 表项。商用交换机通常有 16K+。不需要特殊硬件。

Spraypoint 路由:先散开,再收拢
Spraypoint 路由:先散开,再收拢
Spraypoint 路由分层结构
Spraypoint 路由分层结构

ShuffleBox:把意面变成有序的管道网

路由问题解决了,布线问题怎么办?

意面问题

随机图要求每个交换机随机连 64 个其他交换机。这些"其他交换机"物理上散布在多个机房。如果真去拉线,你会得到一团光纤意面。增量扩容更恐怖——每加一个机架的交换机,要从全数据中心随机断开几十条已有线重新接。

ShuffleBox:把随机连接翻译成有序布线
ShuffleBox:把随机连接翻译成有序布线
ShuffleBox 详细布线:三个机房的全景
ShuffleBox 详细布线:三个机房的全景

ShuffleBox 的设计

ShuffleBox 是一个无源光器件——不需要供电,不需要芯片,内部就是光纤的交叉连接。它做的事情很简单:把逻辑上的随机连接翻译成物理上的有序连接。

类比:ShuffleBox 就像地铁换乘站。你(路由器)只在本地站上车(插到本地 ShuffleBox)。换乘站内部的调度(内部交叉打乱)自然把你送到正确的远端。你不需要知道全局线路图。

结构上,每个 ShuffleBox 有两类端口:

  • r-port(路由器端口):32 个,每个 4 根光纤。路由器的 uplink 插到这里。
  • c-port(互联端口):4 个,每个 32 根光纤。连到其他机房的 ShuffleBox。

内部是完全二分图交叉:每个 c-port 的 32 根光纤分别来自 32 个不同的 r-port。每个 r-port 的 4 根光纤分别去往 4 个不同的 c-port。

如果没有这个内部打乱会怎样?32 个路由器的信号按顺序分配到 4 个 c-port,每个 c-port 固定服务 8 个路由器——这不是随机图,这是 4 个独立的子图。内部的交叉连接打破了这个限制,让每个路由器的信号被分散到 4 个不同的远端。

制造和成本:ShuffleBox 到底贵不贵

论文里有一句不起眼但重要的话:ShuffleBox 和 ShuffleBack 的成本"similar to traditional patch panels and loopbacks"——和传统 patch panel 以及光纤环回器差不多。

为什么能做到这么便宜?因为 ShuffleBox 内部没有有源器件。没有芯片,不需要供电,不需要散热。里面就是光纤的交叉连接,固定在一个外壳里。制造成本主要来自 MPO 连接器(多光纤推拉式连接器)和内部光纤布线。MPO 是成熟的标准品,32 芯 MPO 连接器在市场上大批量采购的价格在几十美元级别。

一个 ShuffleBox 服务 32 个路由器 uplink(dr=32, fr=4),用 4 个 32 芯 MPO 的 c-port。粗算:外壳 + 32 个 4 芯 MPO(r-port)+ 4 个 32 芯 MPO(c-port)+ 内部光纤阵列。整体成本在百美元量级。对比一个 128 端口交换机(数千到上万美元)和一个 400G 光模块(数百美元),ShuffleBox 的成本几乎可以忽略。

但有一个工程约束:fc=32 这个参数的选择不是随意的。论文明确说,更大的 fc 值意味着更少见的连接器规格(32 芯 MPO 已经接近市面上容易买到的上限),更小的 fc 值意味着更多的 c-port(因为 dr×fr=dc×fc),重平衡时需要操作的连接数更多。fc=32 是连接器可得性和运维复杂度之间的折中。

另一个工程细节:AWS 自己承认,首期生产部署时还没有量产的 ShuffleBox。他们用传统 patch panel 手动桥接单根光纤对来模拟内部打乱,加上定制的 ShuffleBack。这说明 ShuffleBox 的制造门槛并不高——传统 patch panel 就能临时替代,只是操作效率低。真正的 ShuffleBox 量产后,布线效率会更高。

物理布线

每个机房放一组 ShuffleBox(shuffle panel)。路由器 uplink 只插到本地 ShuffleBox 的 r-port,短光纤。面板之间用 trunk 光纤互联(c-port 连 c-port)。

论文把布线复杂度拆成三个维度做了对比:

维度 胖树 RNG + ShuffleBox
端点对数 n(路由器)+ R² trunk n(路由器到面板)+ R² trunk(同级)
跨机房光纤量 Agg↔Spine 三层 trunk 只有一层面板间 trunk
机架落地前的布线比例 大部分 trunk 可提前铺设 相同——面板间 trunk 在机房准备期铺设
机架落地时 只插本地线到 Agg 只插本地线到 ShuffleBox

这里 R 是机房数量(通常 O(10))。物理连接的端点对数是 n + R(R-1)/2,远小于逻辑连接的 n²。路由器只和本地 ShuffleBox 短光纤连接,跨机房的连接全部由面板之间的 trunk 处理。

但有一个布线管理上的新挑战:随机性使得物理连接没有可辨识的模式。胖树里,你看到一根线从 ToR 走到 Agg,你知道它是什么。RNG 里,一根从路由器到 ShuffleBox 的线只是"随机连到某个 r-port",物理位置不提供任何语义信息。论文报告的错误接线率 < 1.5%,但在大规模部署中,这个数字意味着每 1000 根线有约 15 根接错。胖树的错误接线率通常更低,因为层级结构提供了物理层面的校验。

AWS 的应对是:用足够多的 ShuffleBox 确保每个机房有余量。因为机房能放多少机架取决于服务器的功耗(高密度 GPU 机架和普通 CPU 机架占用的功率完全不同),实际路由器数量会波动。AWS 用了一个估算的上限来确定每个机房需要多少 ShuffleBox,如果超了就把多出来的机架归入一个新的"逻辑机房",触发一次重平衡。论文承认,胖树在大型数据中心也有类似的超额配置问题。

光衰:ShuffleBox 不是免费的午餐

ShuffleBox 内部的交叉连接有一个物理代价:光路损耗增加

每一次光纤的物理连接(两个连接器对接)都会引入插入损耗。典型的 MPO 连接器插入损耗在 0.3-0.5dB。一个信号从路由器出发,经过 r-port 连接器进入 ShuffleBox,内部交叉后从 c-port 连接器出来,再经过一个 trunk 连接器到远端 ShuffleBox 的 c-port,内部交叉后从 r-port 连接器出来,最终到达目的路由器。

这条路径上有多少个连接器?最少 4 个(路由器→r-port→c-port→远端c-port→远端r-port→路由器),但实际上信号可能在 ShuffleBox 内部经过更长的路径。论文给出的硬限制是:路径上超过 7 个连接器时,禁用该路径

为什么是 7?这取决于商用光模块(transceiver)的光功率预算。一个典型的 400G SR4 光模块的功率预算约为 3-5dB(取决于具体规格和光纤长度)。每个连接器损耗 0.3-0.5dB,7 个连接器就是 2.1-3.5dB,加上光纤本身的衰减(多模光纤约 1dB/km),留给信号的信噪比裕量已经很紧。

光衰的影响不是均匀的。 胖树里,ToR→Agg→Spine 的路径通常有 2-3 个连接器。RNG 里,同一机房内的路径也是 2-3 个,但跨机房的路径可能有 5-7 个。这意味着远距离节点对的有效带宽可能低于近距离节点对——虽然路由层面所有路径都"可用",但物理层的光信号质量在长路径上更差。

这是一个容易被忽略的工程约束:RNG 的"所有路径平等"是逻辑层面的。物理层面,路径质量有差异。好在 Spraypoint 的偏好近距离 waypoint 优化(后文会讲)恰好缓解了这个问题——不是巧合,而是论文作者在设计路由时就考虑了光衰的物理约束。

增量扩容:新机架简单,新机房要小心

新机架上线很简单:插一根光纤到本地 ShuffleBox 的空 r-port。不需要碰任何其他线。和胖树的新机架上线操作完全一样。

新机房上线就复杂了。具体步骤:

  1. 安装新面板
  2. 重平衡:从已有面板随机选一些 c-port,拔掉 ShuffleBack 或断开已有 trunk,用新 trunk 连到新面板
  3. 如果是第 R 个机房,每个已有面板需要把 c-port 连接从均匀分到 R-1 个面板变成均匀分到 R 个面板
  4. 每次断开 c-port 连接前,必须先 drain(排空)该链路上的流量——这意味着重平衡是一个有损操作,需要维护窗口

重平衡的"爆炸半径":c-port 有 32 根光纤(fc=32),断开一个 c-port 影响的是 32 条逻辑链路。论文说 r-port ShuffleBack 的移除影响只有 4 条(fr=4),"blast radius is much smaller"。这意味着重平衡操作的影响范围是可控的,但不是零。

实际发生的频率:数据中心通常有 O(10) 个机房。如果一次性建成,不存在重平衡。如果是分期建设,可能发生 3-5 次重平衡。每次重平衡的操作量是每个已有面板断开约 C·dc/R 个 c-port(C 是每面板 ShuffleBox 数,R 是总机房数)。对于 C=4, dc=4, R=5,每个面板需要断开约 3 个 c-port,操作量不大,但需要精确跟踪哪些 c-port 已连、哪些有 ShuffleBack。

早期匹配率:第 1 个机房刚启动时,很多光纤找不到配对(对端路由器还没上线)。部署到 1/4 时匹配率约 25%,满部署时 100%。第 2 个机房开后跳到 >90%,之后接近 100%。对慢增长数据中心,论文给出了分阶段布线的优化——把第 1 个机房的面板分成多个 phase,逐步开放,使得部署到 25% 时就能达到 80% 以上的有效度数。

ShuffleBack:空端口怎么办?

没用的 c-port 插 ShuffleBack——一个小连接器,把同一端口内的光纤两两桥接(FP1→FP2, FP3→FP4...),信号在本地折返。类比环岛:出口还没修好,车流在环岛内循环,仍然能到达同一个环岛的其他出口。这样即使网络未建满,拓扑仍然有效。


数学原理:为什么随机图"几乎必然"好

RNG 论文的数学基础是概率图论中的集中不等式,特别是 Chernoff bound。这里展开讲核心的一步,因为它解释了为什么随机图有"几乎不可能失败"的性质。

Claim:如果节点集合 S 有至少 nd/4 条未配对半边(光纤),则 S 连接到图外每一个节点的概率 ≥ 1 - n⁻⁴。

推导过程:S 的每条半边独立随机选一个全局半边配对。图外节点 v 有 d 条半边,单次配对连到 v 的概率 ≥ d/(nd) = 1/n。k 次尝试都没连到的概率 ≤ (1-1/n)^k ≤ e^(-k/n)。k ≥ nd/4 时,e^(-k/n) ≤ e^(-d/4)。d ≥ 4·ln n 时,e^(-d/4) ≤ n⁻⁴。对所有 n 个节点做 union bound:n × n⁻⁴ = n⁻³。

n=1000 时,"存在某个节点连不到 S"的概率 < 10⁻⁹。实际上不可能发生。

这个概率保证是整个 RNG 的数学基石——waypoint 层次的大小、路径长度的分布、边不相交路径数的估计、oversubscription 的解析模型,全部建立在这个"几乎必然"的基础上。

oversubscription 的解析模型基于六条原则(贪心短路径优先、平均情况分析、随机删除、可行路径、唯一位置、二项式拥塞),最终给出一个多项式公式。论文用 LP 求解 multi-commodity flow 做仿真对比,模型预测和实际值高度吻合。运维团队可以用公式直接从目标性能反推拓扑参数,和传统胖树的设计体验一致。

准随机图和真随机图等价的数学保证来自 Chung, Graham, Wilson 1989 年的结果:满足部分准随机属性的图,在所有准随机属性上都和真随机图一致——包括谱间隙(spectral gap,衡量扩展性的核心指标)。这意味着 RNG 的"部分确定 + 部分随机"的连接模式和真随机图功能上等价,但物理上可控。


一个反直觉的事实和两个简单解法

RNG 的跳数比胖树少(4 vs 6),但延迟反而可能更高。

原因:胖树的 Agg→Spine 连接通常在同一机房内(几米到几十米)。RNG 的随机连接可能跨越整个数据中心(几百米)。跳数少了 2 跳,但每跳的传播延迟更大。

300m 跨度的仿真:RNG 中位延迟 8.4μs,胖树 7.1μs,高了 15%。数据中心里微秒级的延迟差会在往返中累积,运维对此很敏感。

两个优化很简单,但有效:

偏好近距离 waypoint:选 waypoint 时优先选距离目的地近的候选。排序函数是机房级距离(不是精确光纤长度,避免系统性偏好靠近电缆桥架的节点)。延迟降 0.3μs。

减少跨机房连线:参数 α 控制跨机房连接比例,α=0.5 时跨机房连接减半。仍有足够跨机房容量保证吞吐量,延迟再降 1μs。额外好处:跨机房光缆减少 50%。

两者结合后,RNG 中位延迟与胖树持平。而且这两个优化不降低吞吐量。


实际部署:不是实验,是默认架构

RNG 的生产部署有两个独立的 fabric(server mesh + edge mesh)。2024 年底在都柏林附近首次部署,2026 年 4 月成为全球新建非 GPU 数据中心的默认架构。

量化指标:

指标 数值
路由器数量减少 69%
吞吐量提升 最高 33%
网络设备功耗降低 ~40%
基础设施成本降低 9-45%(取决于 oversubscription)

成本节省和 oversubscription 比率强相关:3:1 oversubscription 时节省最多(约 45%),因为 capacity fungibility 的价值在这个区间最大。1:1 non-blocking 时只省约 9%,因为胖树本身不怎么浪费容量。这个结论和直觉吻合——oversubscription 越高,层级化分配的浪费越大,flat topology 的优势越明显。

应用性能测试(与同 oversubscription 胖树对比):127 条并发流量吞吐量分布完全一致,64B 小包 PPS 略高,存储读取 IOPS 匹配。零用户报告的性能问题。 延迟差异在应用层不可见——这对"随机图路径长度不一致"的担忧是有力的反驳。

运维侧的错误接线率 < 1.5%。ShuffleBox 尚未量产,首期部署用传统 patch panel 加定制 ShuffleBack 模拟。Spraypoint 的收敛时间和 Amazon 现有链路状态协议相当。

但运维侧的改造量远不止"换一种拓扑"这么简单。

维护的挑战:胖树给了直觉,flat 拓扑夺走了它

胖树的层级结构不只是拓扑设计,它也是运维的心智模型。AWS 论文里有一段话很直白:"The hierarchy of fat trees was embedded deeply into these tools, starting from device names itself to managing redundancy during maintenance."

翻译过来:胖树的层级结构写进了设备命名里。一个 ToR 叫"pod3-agg-rack12-tor1",你一看就知道它在哪个 Pod、连的是哪组 Agg。RNG 里没有 Pod,没有 Agg,设备命名体系需要重建。

更实质的影响是维护调度。胖树里,ToR 是叶子节点,互相不依赖。你要升级 10 个 ToR 的固件,可以同时做——每个 ToR 只影响自己机架的服务器。RNG 里不行。ToR 之间有 inter-dependency(它们通过 ShuffleBox 互连),同时升级太多邻居会导致某些区域的连通性下降。你需要计算"哪些 ToR 可以安全地同时升级"——这是一个图着色问题(graph coloring),邻居不能同时着色。对于度数 d=64 的图,你最多能同时升级的 ToR 数量远小于胖树。

故障排查也变了。胖树里,如果 Agg→Spine 链路出问题,你查那条链路就行。RNG 里,一条端到端路径经过多个随机中间节点,没有"自然的"故障定位层级。论文说 AWS "built new tools to easily determine the paths between ToRs for troubleshooting"——他们必须开发新工具来追踪任意两个 ToR 之间的实际路径,因为人工追踪几乎不可能。

新增的工具需求总结

工具类型 胖树 RNG
设备命名 层级化(Pod-Agg-ToR) 需要新体系
冗余管理 同层级交换机互为备份 邻居互为备份,需图算法确定升级组
维护调度 同层级可批量操作 图着色算法限制并行度
故障定位 沿层级排查 需要端到端路径追踪工具
拓扑可视化 树形结构直观 需要 expander 图的专门可视化
容量规划 按层级扩容 用解析模型按 oversubscription 目标设计

这些工具的开发量不小。AWS 没有透露具体投入,但论文暗示这是一个持续多年的工程——从 2023 年项目启动到 2026 年成为默认架构,中间有大量工具链的开发工作。对于想复制 RNG 方案的团队,工具链的开发成本不应该被低估。


RNG 的边界:每条新路线都有它走不通的地方

RNG 不是万能的。AWS 明确说了:GPU 训练集群仍然用胖树(UltraServer / Rail-optimized 变体)。

原因:大模型训练需要 locality 和 aggregation island——同一组 GPU 之间的 all-reduce 流量需要高带宽、低延迟的"岛屿"式连接。flat 拓扑没有岛屿,所有节点平等,反而不适合这种有强 locality 需求的场景。

另一个边界是网络规模。当前配置(ℓ=1 层 waypoint)对 n ≤ 10K 个路由器有效。更大的网络需要更多 waypoint 层,路径变长,模型复杂度上升。

光衰也限制了物理跨度——上文讨论过,路径超过 7 个连接器就被截断,跨机房节点对的路径选择比近距离节点更少。


新路线打开了什么可能性

读完论文和 AWS 的部署数据,我认为最重要的信号是:数据中心拓扑的设计空间变大了。 以前只有胖树一个可行选项,现在有了第二个。第二个选项的存在,会改变所有人审视第一个选项的方式——即使你最终仍然选择胖树,你的选择理由会不同。

哪些场景 RNG 有明显优势? 多租户、异构工作负载、流量模式不可预测的环境——通用计算、存储、推理集群。AWS 用实际部署证明了 9-45% 的成本节省和最高 33% 的吞吐提升。capacity fungibility 在这些场景下有真实的经济价值。

哪些场景胖树仍然更优? GPU 训练集群。需要 locality 和 aggregation island,流量模式可预测、高并发。flat 拓扑的"所有节点平等"在这里反而是劣势。AWS 自己的 GPU 集群仍然用 UltraServer / Rail-optimized 胖树。

最值得探索的灰区在哪里? 推理集群。推理的流量模式介于训练和多租户通用计算之间——请求的来源和目的地不可预测(像多租户),但同批次 token 的处理需要低延迟协作(像训练)。胖树和 flat topology 哪个更适合?目前没有答案。但这个问题以前根本不会被提出来,因为只有胖树一个选项。RNG 的存在让这个问题变得有意义了。推理集群的网络拓扑选择目前在国内几乎没有讨论——大部分参考设计仍然用同一套胖树架构覆盖训练和推理,或者根本没区分这两种场景的不同需求。

哪些场景暂时没有答案? 中等规模的企业数据中心、私有云、边缘数据中心——这些场景的规模和异构性可能不足以让 RNG 的优势覆盖工具链改造成本。结论取决于具体场景,需要更多人去验证。

ShuffleBox 和 Spraypoint 的具体实现 AWS 没有开源。 但论文给出了足够的设计原则和参数选择策略,可以作为参考设计的起点。对于想复制这套方案的团队,供应链上的额外环节是定制的无源光器件(ShuffleBox/ShuffleBack),以及商用交换机上 Spraypoint 的固件实现。

工程落地的几个硬约束

一是 ShuffleBox 是定制器件,市场无标准品。但门槛不高——无源光器件,AWS 首期用传统 patch panel 就能模拟。真正需要定制的是内部的交叉连接模式和 ShuffleBack。对于国内的光通信产业链(中际旭创、光迅科技等),制造能力不是问题,关键是需求规模是否值得开产线。

二是胖树的运维工具链成熟度远高于 flat 拓扑。AWS 花了约三年完成工具链改造(2023-2026)。迁移成本不只是写代码,更是重建运维团队的心智模型——从"层级化排查"到"图论化排查",这是一个组织层面的转变。

三是光衰限制了物理跨度。路径超过 7 个连接器就被截断,这意味着两个跨机房节点之间的路径选择可能比近距离节点更少。Spraypoint 的偏好近距离 waypoint 优化缓解了这个问题,但没有完全消除。对于物理跨度特别大的数据中心(如跨楼宇、跨层),光衰可能成为比 oversubscription 更先碰到的约束。

四是 flat 拓扑的故障排查比胖树更复杂。没有层级结构意味着故障的"爆炸半径"虽然小了(丢 1% 节点 ≈ 丢 1% 容量),但定位故障需要新的端到端路径追踪工具,不能再靠"查 Spine 状态"这种直觉式排查。


国内大厂在做什么:各自的路线

AWS 的 RNG 是针对超大规模多租户数据中心的。国内大厂面对的问题不完全一样——规模不同、工作负载不同、产业链不同。但它们各自在数据中心网络上的探索,恰好从不同侧面验证了 RNG 论文的核心判断:胖树不是唯一答案,工作负载决定拓扑。

阿里:HPN 为训练定制拓扑,Stellar 为推理重建传输层

阿里是国产大厂里在数据中心网络论文产出上最激进的。

SIGCOMM 2024,阿里发了 HPN(High Performance Network)。核心设计思想是:简单物理拓扑 + 高效多路径和拥塞控制。HPN 采用多轨道(multi-track)物理拓扑——不是标准的三层胖树,而是把同轨 GPU 的流量限制在同一个平面内,跨轨流量走专门的 core 层。路径选择复杂度从胖树的 O(2304) 降到了 O(60)。单 Pod 支持 15360 个 GPU。

这个思路和 AWS RNG 的方向相反:RNG 靠随机性获取容量可复用性,HPN 靠精心设计的 locality 来获取路径可预测性。但目的相同——减少路径选择复杂度,提高负载均衡效率。

Apsara 2025,阿里发布了 HPN8.0,800G 吞吐量,翻倍于上一代。定位明确:服务于 AI 模型的训练、推理和强化学习

SIGCOMM 2025,阿里要发 Stellar——自研的第三代高性能网络传输协议栈,专门为智能计算场景优化。Stellar 的重点不在拓扑,而在传输层:RDMA 协议的拥塞控制、多路径选择、和 AI 工作负载的联合优化。

阿里的策略清晰:训练用定制拓扑(HPN multi-track),传输层用自研协议(Stellar),两者解耦。这和 AWS 把拓扑和路由一起换的路径不同,但更务实——不需要重建整个运维工具链,只改传输层就能拿到一部分收益。

字节:重资本投入,拓扑上沉默

字节的资本开支在国产大厂中居首。2024 年约 800 亿元,2025 年预计 1500 亿元,其中约 1000 亿用于硬件采购,交换机等网络设备约占 11%(约 165 亿元)。

但在网络拓扑的公开研究上,字节几乎沉默。SIGCOMM 2025 有一篇来自字节的 ByteScale(16384 GPU 上的超长上下文训练),但重点是通信效率优化,不是拓扑创新。还有一篇 Jakiro,做的是 VPC 上同时支持 RDMA 和 TCP——传输层的工作。自研 DPU 的方向已有披露,但拓扑层面的公开讨论为零。

这个沉默有两种解释:一是字节目前的集群规模(万卡级)用胖树/Rail-optimized 还能撑住,拓扑还不是瓶颈;二是字节的网络团队在做什么但没发论文。无论哪种,RNG 的出现会促使字节重新评估——特别是当推理集群的规模增长到需要多租户复用网络资源的时候。

腾讯:走光的路,不碰拓扑

腾讯的 CPO(Co-Packaged Optics)交换机 Gemini 是国内在数据中心网络硬件上最大胆的投入。2022 年和博通合作开发,25.6T 交换容量,16 个 800G 光接口 + 32 个 QSFP112 可插拔接口。体积是传统交换机的一半,功耗降 26%,延迟降 20%。

但 Gemini 解决的是物理层的问题——光进铜退,提高端口密度和传输距离。拓扑仍然是胖树/Spine-Leaf。

腾讯的策略是:用 CPO 突破物理瓶颈(带宽、功耗、线缆管理),在拓扑上保持保守。这个策略在短期内是安全的——不需要重建运维工具链。但中长期来看,当物理层瓶颈被 CPO 解决后,拓扑层瓶颈会浮现。到那时,RNG 类的 flat topology 会成为下一个要回答的问题。

ZCube:学术界的另一种回答

SIGCOMM 2025 还有一篇值得注意的论文:ATOP→ZCube。作者来自清华大学,做的是自动化的拓扑优化——把网络拓扑参数化为一组超参数,用搜索算法在 256 到 16384 GPU 的规模上找最优拓扑。

结果发现了一种新的非对称拓扑 ZCube:网络直径低、训练性能好、容错性强、成本效益优于现有方案。

ZCube 本身是否会被采纳还不确定。但 ATOP 这个框架的价值在于:它把拓扑设计从"凭经验选胖树参数"变成了"可计算的优化问题"。这和 RNG 论文用解析模型设计拓扑的思路一致——都在用数学方法替代直觉。

华为、新华三和锐捷:设备商的各自突围

华为在智算中心网络上的产品路线是 CloudEngine 系列(800GE 核心交换机 16800-X)和星河 AI 网络。拓扑选择上主推胖树变体(包括 Rail-optimized),重点在端口速率提升和 RoCEv2 优化。

新华三在设备商里走得最远,路线也最全。它同时维持三条产品线:

一是标准 RoCE 方案,基于博通和盛科(Centec)交换芯片,走以太网无损网络路线。这是面向主流客户的成熟方案,兼容性最好,也是当前出货量最大的产品线。盛科是国产交换芯片里最接近高端的厂商,新华三和它的合作降低了芯片供应风险。

二是DDC(Distributed Disaggregated Chassis,分布式解耦机框)架构的新一代无损网络解决方案。核心交换机 S12500AI 系列引入信元交换机制和 VOQ(Virtual Output Queue)技术,宣称实现 100% 负载均衡和零拥塞传输。经 Tolly 验证,DDC 架构在有效带宽方面相比 ECMP 最高提升 107%。DDC 本质上是用信元交换替代传统 ECMP 哈希——和 AWS RNG 用 Spraypoint 替代最短路径是同一个思路的两种实现:都在解决胖树路径选择效率低的问题。但 DDC 仍然基于 Spine-Leaf 物理拓扑,没有改拓扑本身。小红书已经和新华三完成了国内首个基于 DDC 架构的智算网络规模化验证。

三是800G CPO 交换机 S9827 系列,已应用于头部互联网企业。还发布了单芯片 102.4T 的 800G AI 智算交换机 S9828-128EP(128 个 800G 端口)。在组网规模上,DDC 架构单集群支持 9216 个 400G 端口,多集群扩展到 73728 个。

锐捷网络在国产交换机市场里定位独特——它不是自研芯片,而是基于博通等商用芯片做系统集成和场景化方案。2025 年锐捷发布了 AI-Fabric 智算中心网络方案,也是 DDC 架构:NCP(Network Cloud Pod)+ NCF(Network Cloud Fabric)三级网络,支持 18K-32K GPU 卡集群。核心技术同样是信元交换 + VOQ + Credit 流控,和新华三的 DDC 方案类似。

锐捷的差异化在于去中心化的分布式 OS——控制面和管理面解耦,设备可以独立升级。这解决了传统 DDC 架构中 NCC(网络云控制器)单点故障和版本兼容性痛点。锐捷还成功为头部云厂商交付了基于 800G 网卡的双平面高可靠智算网络方案(1000 台 GPU 服务器、8000 张 800G 网卡),AllReduce 带宽稳定在 760GB/s 以上。

客户包括阿里巴巴、字节跳动、腾讯。

设备商的共同点和差异:华为在速率和生态上领先,新华三在 DDC/信元交换上走得最远(有实际客户验证),锐捷在性价比和运维简化上有优势。三家都没有触及拓扑层——都在胖树/Spine-Leaf 的框架内优化负载均衡和传输效率。RNG 类的 flat topology 目前只有一个部署案例(AWS),设备商不太可能在没有更多验证的情况下把它写入参考设计。但新华三的 DDC 架构已经展示了"在胖树框架内用信元交换替代 ECMP"这条路能走多远——如果这条路碰到天花板,flat topology 就是下一个台阶。

国内跟进的核心判断

把国内大厂的路线放在一起看,一个清晰的图景浮现出来:

大厂 重点投入 拓扑层变化 和 RNG 的关系
阿里 HPN multi-track + Stellar 是(训练定制拓扑) 并行——为训练优化 locality,不是多租户容量复用
字节 资本投入 + DPU 无公开动作 观望——规模撑得住胖树,但推理增长可能改变这个判断
腾讯 CPO 光电合封 互补——解决物理层瓶颈,拓扑层待定
清华 ZCube 拓扑自动化搜索 是(学术探索) 同向——数学方法设计拓扑
华为 高速交换机 + RoCEv2 保守——等更多部署案例
新华三 标准 RoCE + DDC 信元交换 + 102.4T 800G 负载均衡层(不改拓扑) 部分同向——信元交换替代 ECMP,但在胖树框架内
锐捷 AI-Fabric DDC + 800G 双平面 负载均衡层(不改拓扑) 部分同向——同上,加上运维简化和性价比

没有人直接跟进 RNG 的 flat topology 路线。 但每个人都在用自己的方式回答同一个问题:胖树之后是什么?阿里选择了定制拓扑,腾讯选择了物理层突破,字节选择了暂不碰,学术圈选择了自动化搜索。

RNG 对国内的最大意义不是"照着抄",而是提供了一个已验证的参照点:在多租户、异构工作负载的场景下,flat topology 有明确的成本和性能优势。当国内大厂的推理集群规模增长到需要考虑 capacity fungibility 的时候,这个参照点会变得有用。

国内大厂的各自路线
国内大厂的各自路线

结论

胖树统治数据中心网络四十年,不是因为它最优,而是因为替代方案一直走不通——三个工程问题(路由、布线、性能预测)卡了十几年。RNG 把这三个问题同时解决了:Spraypoint 让路由跑在商用交换机上,ShuffleBox 让布线复杂度降到和胖树同级,解析性能模型让运维可以按公式设计拓扑。

AWS 用大规模生产部署验证了可行性。但它最大的价值不是替代胖树——而是让数据中心网络的设计空间从一维变成了二维。

以前你做网络设计,问题是"胖树的 oversubscription 选多少"。现在你有了一个新的问题可以问:"这个场景该不该用胖树?" 这个问题本身比它的答案更有价值。

值得探索的方向:推理集群的 flat topology 可行性(国内大厂目前无公开探索)、ShuffleBox 类器件在国内供应链中的落地路径(光通信产业链有制造能力,缺需求驱动)、下一代商用交换机对类似 Spraypoint 路由能力的支持(设备商观望中)、以及更多规模和场景下的实测数据。

国内大厂在网络上的投入已经很大(字节 2025 年网络设备预算约 165 亿元),但投入方向集中在训练侧的速率提升和协议优化,拓扑层面的探索刚刚开始。阿里 HPN 是目前最接近拓扑创新的国产方案,但走的是 locality 优化路线,和 RNG 的容量复用路线正好相反。这两条路线不是竞争关系——它们回答的是不同工作负载下的不同问题。

下一个观察节点:阿里是否会在通用计算和推理场景下尝试 flat topology;字节推理集群规模增长后是否会重新评估拓扑选择;新华三/锐捷的 DDC 架构在万卡以上规模是否会碰到负载均衡天花板、从而驱动向 flat topology 演进。


声明: 本文基于 AWS 公开发表的论文 arXiv:2604.15261v3 "RNG: Flat Datacenter Networks at Scale"(2026 年 4 月提交)及 Amazon Science Blog 公开信息(2026 年 5 月 28 日),结合 Tom's Hardware、Data Center Knowledge、SDxCentral 等多源报道进行交叉验证后撰写。国内大厂部分基于 SDxCentral、光纤在线、LinkedIn(Dennis Cai)、ACM SIGCOMM 2024/2025 论文录用列表、国金证券研究报告等公开信息。不构成投资建议。文中数据截至 2026 年 6 月 5 日。