← 返回观点 思考

两场革命,一张网络:AI 训练集群的拓扑与协议协同重构

10 万 GPU 规模的 AI 训练网络,正在物理层(拓扑)和逻辑层(协议)同时经历范式重构。ZCube 用非对称拓扑省掉 60% 交换机,MRC 把智能从交换机推到网卡——但真正的故事是:这两场革命互为前提,必须协同设计。本文建立双轴框架,覆盖 RoCEv2→MRC→UET…

2026-05-26思考31 分钟阅读

两场革命,一张网络:AI 训练集群的拓扑与协议协同重构

10 万 GPU 规模的 AI 训练网络,正在物理层(拓扑)和逻辑层(协议)同时经历范式重构。ZCube 用非对称拓扑省掉 60% 交换机,MRC 把智能从交换机推到网卡——但真正的故事是:这两场革命互为前提,必须协同设计。本文建立双轴框架,覆盖 RoCEv2→MRC→UET 协议演进、Clos→Rail→ZCube→OCS 拓扑创新、芯片/设备/云厂商格局,最终给出按规模和场景的决策框架。

本文是三篇系列的全景综述。姊妹篇之一「从 CLOS 到 ZCube:智算集群网络拓扑演进」深入分析拓扑设计的物理层创新——ATOP 自动搜索、非对称结构、甜点规模、物理约束。姊妹篇之二「从 RoCE 到 MRC:AI 集群传输协议与芯片重构」深入分析传输协议演进与芯片实现——EV 状态机、SRv6 uSID、NIC/交换机芯片重构、中国产业差距。

一个问题,两个维度

双轴演进时间线:拓扑与协议的平行革命
双轴演进时间线:拓扑与协议的平行革命

2025 年底,OpenAI 的生产集群跑着 131,072 块 GPU。字节跳动的训练集群达到 16,384 块 GPU。Google、Meta、阿里、微软都在向 10 万 GPU 规模逼近。

在这个规模上,传统数据中心网络的设计假设全面崩塌。但崩塌不是发生在一个地方——而是同时在两个维度上发生:

物理层:线怎么连。 传统三层 Clos 在 10 万 GPU 规模下需要四层交换机,光模块数量爆炸,延迟叠加严重。拓扑设计从"怎么连得多"变成"怎么连得聪明"。

逻辑层:包怎么转。 RoCEv2 的 ECMP 哈希在大规模下必然产生 flow collision,PFC 在多层拓扑里形成连锁风暴,动态路由收敛需要秒级而训练 job 需要微秒级。协议设计从"怎么转得稳"变成"怎么转得快且不怕坏"。

过去三年,这两个维度各自出现了一次范式级突破:

  • 拓扑端:字节跳动 2025 SIGCOMM 最佳论文 ZCube,把拓扑设计从"专家直觉"变成"自动搜索",发现非对称结构在 AI 训练场景下始终优于对称结构,在甜点规模省掉 60% 交换机。
  • 协议端:OpenAI 联合 NVIDIA/AMD/Broadcom/Cisco/Arista 推出 MRC 协议,同时推翻了数据中心网络三十年的五个共识——从 ECMP 到 PFC 到动态路由全部重写,核心思想是把智能从交换机推到网卡。

但这两场革命不是独立发生的。ZCube 的 2 跳直径大幅简化了 MRC 的故障检测;MRC 的 SRv6 静态源路由让非对称拓扑的路径管理变得可行。 它们是同一个问题的两个面,必须放在一起理解。


拓扑革命:从通用无阻塞到 AI 负载专用

Clos 的三个假设

1953 年 Charles Clos 提出的无阻塞多级交换网络,构成了现代数据中心 Fat-Tree 拓扑的基础。1985 年 Charles Leiserson 将其引入并行计算。它有三个隐含假设:

  1. 流量模式不可预测——需要"任意输入到任意输出"的全二分带宽
  2. 大量独立小流——ECMP 哈希在统计上均匀分散
  3. 交换机同构——同一端口数、同一规格,简化采购和运维

在 AI 训练场景下,这三个假设全部动摇:集合通信模式高度规律(AllReduce/All-to-All 每个 step 重复相同模式,不需要"任意到任意");大象流容易碰撞(ECMP 在少量大流下不均匀);ATOP 的自动搜索发现非对称结构始终优于对称结构。

规模天花板: 三级 64 端口交换机构建的胖树最大支持约 32K 端点;四级可到 ~64K,但延迟和成本急剧上升。三层 Clos 在 10 万 GPU 规模下要么需要四层(更高延迟/成本),要么 oversubscribe(带宽不保证)。

Rail-Optimized:从"通用连接"到"匹配通信模式"

NVIDIA DGX SuperPOD 参考架构采用的 Rail+Global 设计,代表了拓扑演进的第一步——不再追求全连接,而是匹配 AI 训练的实际通信模式。

核心思想:一台 GPU 服务器有 8 个 GPU,每个 GPU 有自己的 NIC。将所有服务器中相同位置的 GPU 连到同一台交换机,形成 8 条独立的 Rail。同 rank GPU 间通信只需单跳,大部分流量被吸收在 Leaf 层,Spine 压力降低。

Rail-Only vs Rail+Global: Rail-Only 省去顶层交换机、成本最低,但只支持高度局部化通信(如纯数据并行)。Rail+Global 增加 Spine 层支持 All-to-All 等全局通信,但成本上升。Rail-Optimized 拓扑对 AI 有效,但本质仍是对称拓扑——它没有挑战"交换机必须同构"的假设。

→ Rail-Optimized 拓扑的详细设计和 PD 分离推理场景分析,见姊妹篇之一。

ZCube:把拓扑设计变成超参数搜索

字节跳动联合清华大学的 ATOP(Automated Topology Optimization Pipeline)做了一件简单但从未有人做过的事:把拓扑设计的所有决策编码成 11 类超参数,用 NSGA-II 进化算法搜索 Pareto 前沿。

11 类超参数覆盖层间连接(GPU 数量、层数、每层节点数、分块参数、连接数、带宽因子 200G-800G)和层内连接(维度数、每维节点数、外向连接数、坐标计算因子),将搜索空间从邻接矩阵的 O(2^N²) 压缩到单台 256 核服务器 3 天内可搜索完毕。

14 个优化目标:9 个 DP/PP/Mixed 流量 JCT + 2 个 MoE JCT + ForestColl all-gather + APS 故障容错 + 成本。流级仿真器与 NS-3 包级仿真对比平均误差仅 1.5%。

非对称结构的发现: 在 256/1024/4096/16384 四个 GPU 规模的搜索中,Pareto 前沿拐点处的最优解都呈现相同的非对称特征——首尾层 2n 端口、中间层 3n 端口。论文将其形式化定义为 ZCube。

ZCube(n,k) 递归定义:

  • ZCube(n,1) = 1 个交换机 + n 个 GPU
  • ZCube(n,k+1) = n × ZCube(n,k) + n^k 个交换机
  • GPU 数 = n^(k+1),交换机数 = (k+1) × n^k,每个 GPU 有 k+1 个 NIC 端口

关键参数: 网络直径 = k(ZCube(128,2) 的直径仅 2,vs 三层 Clos 的 5-7 跳)。低直径直接降低 PP 流量完成时间——这是端到端训练加速的主要来源。

16K GPU 定量对比

以 Broadcom Tomahawk 5(51.2T)交换机为例:

拓扑 交换机数 线缆 训练迭代时间 网络成本
ROFT 640 49,152×400G 5.19s $92.93M
Rail-only 384 32,768×400G 5.15s $76.38M
HPN 384 16,384×400G + 32,768×200G 5.10s $84.03M
ZCube(128,2) 256 49,152×200G 4.95s $57.28M

ZCube 交换机比 ROFT 少 60%,用 200G 线缆(vs 400G)光模块成本减 25-50%,训练速度快 3-7%,网络成本低 26-46%。

甜点规模与生产验证

ZCube(n,k) 要求每个 GPU 有 k 个 NIC 端口。k=2 意味着每 GPU 需 2 个端口(1 张 800G NIC breakout 成 2×400G),这是大多数服务器能支持的。k=3 大多数服务器做不到。

GPU 规模 最优 ZCube 交换机数 值得?
<500 ❌ Flat 最优
512 ZCube(23,2) 46 ⚠️ 优势不大
1024 ZCube(32,2) 64 ✅ 甜点
4096 ZCube(64,2) 128
16384 ZCube(128,2) 256 ✅ 论文核心案例

1024 GPU 的 ZCube(32,2) 是甜点:64 口交换机完美映射 Tomahawk 5 标准配置,零端口浪费。智谱 AI 千卡推理集群从此规模受益——节省 1/3 光模块和交换机,推理吞吐提升 15%。

容错方面:16K GPU 单 ToR 故障时 ZCube 性能仅下降 2.8%(vs ROFT 的 46.9%)。无故障概率 ZCube 93%(vs ROFT 83%),交换机少本身就是更高可靠性的来源。

→ ZCube 的完整分析(ATOP 方法论、NVLink 域扩展、容错分析、生产验证细节、OCS 对比),见姊妹篇之一。

OCS:拓扑演进的另一条路线

ZCube 是"在电交换框架内优化拓扑"。还有一条路线:用光路交换(OCS)替代 Spine 层电交换机。

Google Apollo 从 2022 年起大规模部署 OCS(3D MEMS 微镜阵列),SemiAnalysis 估计节省超过 30 亿美元。SIGCOMM 2025 的 InfiniteHBD 更进一步——在光收发器级别集成动态连接能力。

维度 电交换 OCS
切换粒度 包级(μs) 电路级(ms)
延迟 多跳累积 全光路径,极低
功耗 每跳电处理 光路直通
适用场景 通用 粗粒度、可预测流量

OCS 的胜利条件:大流量、可预测模式、规模足够大使得 Spine 层成为瓶颈。AI 训练的集合通信正好满足。ZCube 和 OCS 不是竞争关系——ZCube 省电交换机,OCS 替 Spine 层,两者可以在不同规模点互补。

拓扑演进小结

四条演进方向并行:

  1. 从对称到非对称(ZCube)——ATOP 搜索证明非对称更优
  2. 从三层到两层(MRC 多平面 Clos)——OpenAI/Microsoft 压缩到两层
  3. 从电交换到光电混合(Google Apollo OCS)——Spine 层用光替代电
  4. 从交换机智能到端点智能(MRC)——路由决策权从交换机转移到 NIC

→ 拓扑的完整演进路径、定量对比、NVLink 域扩展、容错分析、物理约束(光模块成本、机柜功率、连线距离对拓扑选择的硬限制),见姊妹篇之一。


协议革命:从交换机智能到网卡智能

RoCEv2:现状与局限

RoCEv2(RDMA over Converged Ethernet v2)是当前 AI 训练网络的事实标准。延迟 2-5μs,运维成熟,跟 InfiniBand 性能差距仅 0.5%-3%。Meta 在超过 30K GPU 上大规模部署 RoCEv2 + DCQCN + ECN,是业界标杆。

但规模继续扩大,三重瓶颈连锁爆发:

ECMP 哈希冲突。 每条流被哈希到一条路径。AI 训练产生少量大象流(集合通信),两个大流撞到同一条链路就拥塞。规模越大,碰撞概率越高。

PFC 风暴。 RoCEv2 依赖 PFC 实现无损传输——接收端 buffer 快满了发 pause frame 让发送端停下。在多层拓扑里 pause frame 沿上游传播形成 head-of-line blocking,不同优先级的 pause frame 甚至可以互相死锁。

动态路由收敛。 BGP/OSPF 在链路故障后重新计算路由表,需要几十毫秒到几百毫秒。训练 job 对延迟极其敏感,一次收敛就可能导致 AllReduce 超时。

Meta 的 Ghost 论文(SIGCOMM 2024)揭示了更深层的问题:链路抖动导致拓扑知识失效,产生"幽灵"节点。这不是"修修 RoCEv2 就好"的问题——是设计假设在大规模下系统性崩塌。

RFC 9800:SRv6 源路由的基础设施

RFC 9800(2025 年 6 月发布)定义了 Compressed SRv6 Segment List Encoding(C-SID/uSID/micro-SID)。SRv6 每个标准 SID 占 128 bit,10 段路径需要 160 字节开销,在大规模数据中心不可接受。C-SID 将多个 16-32 bit 压缩 SID 打包进一个 128-bit 容器,SRH 开销降低 50%+。

两种实现路线:NEXT-C-SID(Cisco/F5 主推,shift-and-lookup)和 REPLACE-C-SID(中国移动 2022 年云骨干网大规模部署,10+ 厂商互操作测试)。

对 AI 网络的意义:源路由实现多路径——发送端在包头编码完整路径,交换机无需运行动态路由。C-SID 压缩使编码开销可控。微秒级故障绕行——路径信息在包头而非转发表中,NIC 检测到故障后立即切换备用路径。

MRC:推翻五个共识

2026 年 5 月,OpenAI 联合 AMD/Broadcom/Intel/Microsoft/NVIDIA 在 OCP 发布 MRC(Multipath Reliable Connection)。不是修补 RoCEv2,是逐条推翻:

共识 传统做法 MRC 做法 核心变化
负载均衡 ECMP 哈希(流级别) Entropy Value 包喷射(包级别) 消除 flow collision
无损传输 PFC(pause frame) 禁用 PFC + 选择性重传 消除 head-of-line blocking
有序交付 单路径有序 乱序直写(每包携带虚拟地址) 消除排序延迟
路由 动态路由(BGP/OSPF) SRv6 uSID 静态源路由 消除收敛延迟
拥塞控制 交换机+主机协同 交换机只做 ECN 标记 消除控制平面冲突

设计哲学:把智能从交换机推到网卡,让交换机回归无状态转发。

MRC 是对 RoCEv2 RC 传输层的最小化扩展,仅保留 RDMA Write 和 Write-with-Immediate(AI 工作负载只需子集功能),复用现有 RDMA Verbs/QP 体系。MRC 明确"借鉴了 UET 的多项技术"(论文原文)。

多平面两层 Clos: 每个 800G NIC breakout 为 8×100G 连 8 台 T0 交换机。51.2T 交换机从 64×800G 变为 512×100G,单平面容纳 131,072 GPU。与三层拓扑相比:光模块只需 2/3,交换机只需 3/5,最长路径仅 3 跳。

生产部署: OpenAI 最大 NVIDIA GB200 超算(包括 Oracle/OCI 德州 Abilene 站点)、Microsoft Fairwater(Atlanta + Wisconsin)。训练过程中热重启 4 台 T1 交换机,无需协调训练团队,任务继续运行。

UET:并行演进

UEC(Ultra Ethernet Consortium,120+ 成员,Linux Foundation 历史上增长最快的工作组)2025 年 6 月发布 UET Specification 1.0。技术根基约 75% 来源于 HPE Slingshot 传输协议。

UET 与 MRC 共享多项核心概念:包喷射、乱序放置、选择性重传、packet trimming。关键差异:

维度 MRC UET
设计路径 RoCEv2 RC 最小扩展 全新传输栈
软件接口 RDMA Verbs(Write+WriteImm) libfabric v2.0
流控 禁用 PFC Credit-based
源路由 SRv6 uSID 无(依赖交换机路由)
部署门槛 中(MRC NIC + SRv6 交换机) 高(全新软件栈)
生产验证 OpenAI/MS 131K GPU 规范刚发布

AMD 贡献的 NSCC 拥塞控制算法同时成为 UEC 拥塞控制规范的一部分。MRC 和 UET 是互补而非竞争——MRC 走实用主义快速部署,UET 走全新传输栈长期演进。

InfiniBand:封闭生态的最后堡垒

NVIDIA 通过收购 Mellanox 主导 IB 生态。XDR(800 Gb/s)正在部署(Quantum-X800 + ConnectX-8),GDR(1600 Gb/s)在路线图上。

IB 的技术优势:原生无损(credit-based,无 PFC 风暴)、原生多路径、超低延迟(1-2μs)、NVIDIA 全栈保证兼容性。劣势:成本高、供应商锁定(实质只有 NVIDIA)、运维人才稀缺、生态封闭。

趋势判断: IB 在 2026 年仍占高端市场,但中长期被 Ethernet(MRC/UET)蚕食是大概率事件。NVIDIA 自身也同时支持两条路线(ConnectX-8 同时支持 RoCEv2 和 MRC)。Gartner 预测到 2029 年 >65% 生成式 AI 集群将基于以太网。

协议对比矩阵

维度 RoCEv2 MRC UET InfiniBand
多路径 无(ECMP 流级) ✅ 包喷射 128-256 路径 ✅ 包喷射 ✅ 自适应路由
丢包恢复 Go-Back-N/选择性重传 选择性重传 + trimming 选择性重传 + trimming 链路级+传输级重传
流控 PFC(无损) 禁用 PFC Credit-based Credit-based
源路由 SRv6 C-SID
故障恢复 秒级(路由收敛) 微秒级(NIC 绕行) 毫秒级(待验证) 秒级(Subnet Manager)
部署复杂度 中高 中(NVIDIA 一体化)
成本
适用规模 ≤64K GPU 100K+ GPU 100K+ GPU ≤64K GPU(经济规模)

标准化格局

三条路线并行:IETF(SRv6/RFC 9800)提供底层源路由基础设施;OCP(MRC)走实用主义,最小化修改 RoCEv2 快速部署;UEC(UET/UEC 1.0)走全新传输栈。三者不互斥:MRC 借鉴 UET 技术,SRv6 服务于 MRC 源路由需求。

→ 协议核心机制(EV 状态机细节、SRv6 uSID 转发流程、Packet Trimming、NIC/交换机芯片定量分析)、协议对比矩阵和标准化进展(IETF/OCP/UEC/IEEE/IBTA)的详细分析,见姊妹篇之二。


为什么这两场革命互为前提

这是本文最核心的论点:拓扑和协议的这两场革命是深度耦合的协同设计,不能独立选择。

拓扑×协议协同矩阵:传统方案 vs 新方案,及协同效应
拓扑×协议协同矩阵:传统方案 vs 新方案,及协同效应

协同效应一:短直径降低协议复杂度

ZCube 的 2 跳直径不只是降低延迟——它直接简化了传输协议的所有关键环节:

  • 故障检测更快: MRC 的 EV 四状态机(active → congested → suspected_failed → confirmed_failed)在每 RTT 内判断路径是否存活。2 跳拓扑的 RTT 远短于 5-7 跳的三层 Clos,收敛更快、置信度更高
  • SRv6 开销更小: 2 跳只需 2-3 个 uSID 段,包头压缩后几乎无开销。5-7 跳需要更多段,累积开销挤占有效载荷
  • 乱序重排更简单: 包经过的中间节点越少,乱序程度越低,NIC 端 reorder buffer 和 SACK 逻辑越轻

反过来说,MRC 在传统三层 Clos 中也能工作,但 5-7 跳路径削弱了包喷射优势,SRv6 开销更大,故障检测更慢。

协同效应二:源路由让非对称拓扑变得可行

传统 ECMP 要求多条等价路径——这隐含了对称拓扑假设。非对称拓扑(ZCube 首尾层 2n vs 中间层 3n)在 ECMP 下路径数量不等,某些链路可能被过度使用或闲置。

MRC 的 SRv6 静态源路由绕开了这个约束:NIC 在发包时编码完整路径,交换机只需按 SRv6 头转发,不需要理解拓扑结构。 路径管理从"交换机需要复杂路由协议"变成"NIC 端预计算 + 静态编码"。

没有 MRC(或类似源路由机制),ZCube 的非对称结构在生产环境中的路径管理会复杂得多。反过来,没有 ZCube 这类短直径拓扑,MRC 的包喷射和快速故障检测优势也被削弱。

协同效应三:交换机简化与拓扑成本的双重节省

维度 传统三层 Clos + RoCEv2 ZCube + MRC
交换机数量 基准 -60%
单交换机复杂度 需大量 TCAM/Buffer/PFC 净减 ~50MB buffer,无动态路由
光模块数量 基准 -40%(更短路径 = 更少光模块)
故障恢复 ~100ms(路由收敛) ~10μs(NIC 自主绕行)
每流路径数 1 128-256
NIC 端开销 基准 +16KB/QP(EV/SRv6/SACK/重传/OOO)

网络成本下降不是只靠拓扑或只靠协议,而是两者协同。 交换机变简单了所以数量减少不牺牲可靠性;拓扑变浅了所以协议故障检测窗口缩短。

这不是两个独立选择的组合

  • 选了 ZCube 但用 RoCEv2:非对称拓扑在 ECMP 下路径管理困难,PFC 连锁反应没有消除
  • 选了 MRC 但用传统三层 Clos:5-7 跳削弱包喷射,SRv6 开销更大,故障检测更慢
  • 只有两者配合,才能实现 2 跳 + 源路由 + 无 PFC + 微秒级故障恢复

→ 更详细的技术分析:姊妹篇之一「从 CLOS 到 ZCube」中的「ZCube 与 MRC 的协同」节(2 跳直径对 EV 状态机的简化、非对称拓扑对源路由的需求、k 端口与多路径的关系),以及姊妹篇之二「从 RoCE 到 MRC」中的「MRC 与非对称拓扑的协同」节(源路由让非对称可行、短路径放大包喷射效果、未探索的联合优化空间)。


芯片产业格局

NIC:从配件变成核心

传统 NIC 是服务器附属品,功能简单。MRC 让 NIC 变成网络智能的核心——EV 状态机、SRv6 编码、包喷射调度、乱序重排全部在 NIC 端完成。Per-QP 状态从 512 字节膨胀到约 16KB(EV set 2KB + SRv6 映射 4KB + SACK 0.5KB + 重传 8KB + OOO tracker 1.5KB),2000+ QP 规模下 on-chip SRAM 不够用,需要 DDR 或 HBM。

厂商 产品 策略 SRv6 MRC
NVIDIA ConnectX-8 固件实现 + DDR 缓存
AMD Pollara 400 硬件实现 + HBM 缓存 ✅(通过 UEC) ✅(首款兼容)
Broadcom Thor Ultra NPL 可编程 ✅ 原生 ✅ 原生

NIC die cost 上升趋势明显:MRC 功能占 die 面积约 15-20%。对 NVIDIA/Broadcom 可接受,对后来者是更高门槛。

交换机:变简单但不变便宜

MRC 让交换机回归无状态转发——净减 ~50MB buffer + 大量 TCAM。但带宽需求指数增长:102.4T → 204.8T,需要更先进的 SerDes(200G→400G/lane)和 CPO(共封装光学)。

芯片 世代 带宽 MRC 支持 关键特性
Broadcom TH6 102.4T 64×800G / 128×400G / 512×100G ✅ 硬件支持 Cognitive Routing 2.0, Packet Trimming (CSIG)
Cisco G300 102.4T 64×800G ✅ P4 实现 uSID 加速,可编程性强
NVIDIA Spectrum-6 102.4T 64×800G 有限/路线图 与 IB 统一运维栈
Marvell Teralynx 10 51.2T 64×800G - 当前不支持多路径
华为 CloudEngine - 中国市场主导

芯片×协议矩阵: Broadcom 凭 TH6 + Thor Ultra 端到端方案在 MRC 支持上领先;Cisco 通过 P4 可编程保持灵活性(不换硬件支持新协议);NVIDIA 在 IB 生态保持独家。MRC/UET 支持是 102.4T 世代的关键差异化——不支持多路径可靠传输的交换芯片将在 AI 市场被边缘化。

路径到 204.8T: 200G/lane SerDes 设计难度指数增长,CPO 从"可选"变为"必需",chiplet 架构的跨 die 一致性是未解决问题。

竞争格局

路线 参与者 优势 劣势
封闭全栈 NVIDIA(IB+ETH+GPU)、Google(TPU+ICI+OCS) 极致性能、紧耦合 高成本、供应商锁定
芯片+设备 Cisco(Silicon One+Nexus)、华为(自研+CloudEngine) 差异化+可控性 生态面窄
设备+软件 Arista(Broadcom芯片+EOS) 软件差异化 芯片依赖 Broadcom
组件供应 Broadcom、Marvell 横向平台 利润率低

开放生态(MRC/OCP + UEC,120+ 成员)正在系统性挑战封闭生态。大部分超大规模客户选择混合策略:核心训练用 NVIDIA IB,Scale-out 和推理用开放以太网。


谁在用什么

云厂商 网络方案 规模 关键特征
OpenAI/MS MRC + 多平面两层 Clos 131K GPU MRC 最大生产部署
Google OCS + ICI + Virgo TPU 全栈自研 唯一完全自研路径
Meta RoCEv2 + 大规模调优 >30K GPU RoCEv2 + ECN/DCQCN 最大规模部署;Ghost 论文揭示可靠性风险
字节 ZCube + Rail-Optimized 16K GPU ZCube 论文来源
阿里 HPN + Stellar >15K GPU SIGCOMM 2025 论文贡献最多(11 篇)
AWS EFA/SRD 自研 不走主流路线
xAI 以太网 Arista + Broadcom

软件侧共同趋势:

  • AI 驱动的网络运维(AgenticOps/意图驱动网络)成为管理平台新战场
  • 从"手动调 PFC/ECN 参数"走向"AI 自适应调优"
  • 可观测性投入急剧增加——10 万 GPU 的网络状态无法人工巡检

中国市场的特殊性:

  • 国产替代不可逆,华为 + 新华三 + 锐捷主导
  • 2025 年国内 800G 交换机出货量从 2023 年 1.5 万台增长到 6 万台(CAGR >100%)
  • DeepSeek 等国产大模型带动推理侧 200G/400G 交换机需求
  • SIGCOMM 2025 中国机构贡献极为突出(阿里 11 篇、字节 2 篇最佳论文、清华/北大/HKUST)——超大规模实践需求驱动系统性学术创新

决策框架

决策框架矩阵:按规模×场景选择网络方案
决策框架矩阵:按规模×场景选择网络方案

按规模选拓扑 × 按场景选协议

GPU 规模 推荐拓扑 推荐协议 理由
>50K Multi-Plane 两层 Clos MRC + SRv6 故障恢复和包喷射是刚需
10K-50K Multi-Plane 或 Rail+Global MRC 或 RoCEv2+调优 过渡区间
1K-10K ZCube / Rail-Optimized RoCEv2 或 MRC ZCube 甜点区间
<1K 1x1 / 扁平 RoCEv2 协议选择不敏感

按场景的差异

大规模同步预训练(>10K GPU): 对尾延迟和故障恢复最敏感。MRC 的包喷射和微秒级故障绕行是最佳选择。Multi-Plane 两层 Clos 提供最短路径。

中等规模训练(1K-10K): RoCEv2 + DCQCN + ECN 调优在当前规模下可管理。ZCube 提供更高成本效率。

推理服务: 对成本和吞吐更敏感,对尾延迟要求低。ZCube 在推理场景优势最显著(智谱 AI 15% 吞吐提升 + 1/3 硬件节省)。

混合负载(训练+推理+通用): 考虑 RoCEv2 + UET 演进路线,或分区域部署(训练区 MRC + 推理区 ZCube)。

中国产业:差距与机会

→ 完整分析见姊妹篇之二「从 RoCE 到 MRC」中国产业章节。核心判断:

  • 硬件差距: 国产 NIC 芯片在 MRC 支持上落后 1-2 代,短期无法生产 ConnectX-8/Thor Ultra 等价产品
  • 软件差距: MRC 的开源实现(OCP)给追赶窗口,但需要深度参与标准制定
  • 机会: 中国超大规模部署的实践需求正在驱动原创学术贡献。ZCube 本身就是字节+清华的工作

关键判断与风险

核心判断

判断一:以太网将在 3-5 年内成为 AI 后端网络的主流。 RoCEv2 + MRC/UET 系统性解决以太网在 AI 场景的三个核心短板(单路径、PFC 风暴、慢故障恢复)。InfiniBand 不消失,但从主流退守到对延迟极端敏感的高端细分。

判断二:MRC 是当前最激进的以太网方案。 MRC + SRv6 + 多平面 Clos 代表最前沿设计:消除动态路由、用源路由替代、用包喷射替代 ECMP、用多平面替代多层。OpenAI 和 Microsoft 的生产验证提供最强实践背书。

判断三:拓扑设计从"工程直觉"走向"自动搜索"。 ATOP 的方法论贡献大于 ZCube 本身——可重复使用、消除认知偏差、支持多目标。当新硬件/新模型出现时重新运行即可,无需从零设计。

判断四:开放生态正在系统挑战封闭生态。 MRC(OCP 开源)、UET(UEC 120+ 成员)、P4 可编程芯片、多供应商设备——正在构建不需要绑定 NVIDIA 的高性能 AI 网络。但 NVIDIA 最高端全栈优化仍不可替代。

判断五:中国机构在 AI 网络学术研究中已全球领先。 不是偶然——超大规模实践需求驱动系统性创新。

关键风险

  1. MRC 互操作性: 在多厂商异构环境中尚未充分验证。UET 仍早期,从规范到大规模部署需 1-2 年
  2. PFC 替代方案的不确定性: MRC 禁用 PFC、UET 用 credit-based、SIGCOMM 2025 DCP 提出第三条路——哪种能在最广场景稳定运行需更多验证
  3. Ghost 问题: 链路抖动导致拓扑知识失效,10 万 GPU 规模可能成为系统性风险,仅靠更快故障检测无法根本解决
  4. 1.6T 物理层: 200G/lane SerDes 难度指数增长,CPO 可维修性和供应链未解决,204.8T chiplet 跨 die 一致性是未知数
  5. 供应链地缘政治: 出口管制和国产替代要求影响设备可获得性和成本

三年路线图

2026: MRC 在 OpenAI/MS 外开始小规模部署。ZCube 在字节/智谱外被其他厂商尝试。UEC 1.0 互操作测试启动。102.4T 交换芯片量产。

2027: 800V 配电 + 102.4T + MRC 的"黄金组合"成为新建超大规模训练集群默认方案。OCS 在非 Google 环境试点。1.6T 端口和 CPO 小规模部署。

2028: UET 生态成熟,与 MRC 互补。204.8T 芯片量产。拓扑-协议协同设计成为主流方法论——ATOP 类工具集成 MRC 约束做联合搜索。

对不同角色的建议

AI 基础设施决策者:

  • 短期(2026):新建训练集群优先考虑以太网 + RoCEv2,选择支持 MRC 升级路径的设备;1K-10K 规模考虑 ZCube
  • 中期(2027-2028):MRC/UET 生态成熟后评估迁移;关注 1.6T 和 OCS 部署时机
  • 避免锁定:选择 P4 可编程交换芯片为协议演进留空间

网络设备厂商:

  • 差异化从"速率竞争"转向"架构竞争"——Buffer 管理、可编程性、负载均衡策略
  • 软件价值:AI 驱动网络运维(AgenticOps)、意图驱动网络(IBN)是新战场
  • 中国厂商:国产替代窗口加速,华为全栈 + 新华三 DDC 创新有差异化空间

芯片厂商:

  • MRC/UET 支持是 102.4T 世代的关键差异化
  • CPO 能力是 204.8T 世代入场券
  • P4 可编程性为客户提供"标准未定,芯片先行"的保险

研究者和投资者:

  • 关注信号:MRC 采纳速度、UEC 互操作结果、ZCube 64K+ 验证、OCS 非 Google 部署
  • 投资方向:光互联(CPO/DSP/硅光子)、开放以太网生态(UEC/MRC)、AI 网络管理、中国国产替代

附录:论文与标准追踪

SIGCOMM/NSDI 论文

SIGCOMM 2025(AI 网络核心论文):

  • ZCube / ATOP(字节+清华)——最佳论文,拓扑自动搜索
  • InfiniteHBD(OCS 光路交换新方案)
  • DCP(去 PFC 拥塞控制新方案)

SIGCOMM 2024:

  • Ghost in the Datacenter(Meta)——链路抖动导致拓扑知识失效
  • MegaScale / ByteScale(字节)——大规模训练系统工程

IETF / OCP / UEC / IEEE / IBTA 标准

→ 详见姊妹篇之二「从 RoCE 到 MRC」中的标准化格局节。核心标准:RFC 9800(SRv6 C-SID)、MRC 1.0(OCP)、UET 1.0(UEC)、802.3dj(1.6T 以太网推进中)、XDR(IBTA)。


三篇系列导航

篇目 聚焦 核心内容
本文(综述) 双轴协同框架 拓扑×协议的交叉关系、芯片/设备/云厂商格局、决策框架、风险与路线图
姊妹篇上:拓扑 物理层深度 ATOP 方法论、非对称结构、甜点规模定量对比、NVLink 域扩展、容错分析、生产验证、OCS、物理约束
姊妹篇下:协议 逻辑层深度 MRC 五个共识推翻、EV 状态机、SRv6 uSID 转发、Per-QP 状态、三家 NIC 对比、交换机资源加减法、中国产业差距