两场革命，一张网络：AI 训练集群的拓扑与协议协同重构

10 万 GPU 规模的 AI 训练网络，正在物理层（拓扑）和逻辑层（协议）同时经历范式重构。ZCube 用非对称拓扑省掉 60% 交换机，MRC 把智能从交换机推到网卡——但真正的故事是：这两场革命互为前提，必须协同设计。本文建立双轴框架，覆盖 RoCEv2→MRC→UET 协议演进、Clos→Rail→ZCube→OCS 拓扑创新、芯片/设备/云厂商格局，最终给出按规模和场景的决策框架。

本文是三篇系列的全景综述。姊妹篇之一「从 CLOS 到 ZCube：智算集群网络拓扑演进」深入分析拓扑设计的物理层创新——ATOP 自动搜索、非对称结构、甜点规模、物理约束。姊妹篇之二「从 RoCE 到 MRC：AI 集群传输协议与芯片重构」深入分析传输协议演进与芯片实现——EV 状态机、SRv6 uSID、NIC/交换机芯片重构、中国产业差距。

一个问题，两个维度

2025 年底，OpenAI 的生产集群跑着 131,072 块 GPU。字节跳动的训练集群达到 16,384 块 GPU。Google、Meta、阿里、微软都在向 10 万 GPU 规模逼近。

在这个规模上，传统数据中心网络的设计假设全面崩塌。但崩塌不是发生在一个地方——而是同时在两个维度上发生：

物理层：线怎么连。 传统三层 Clos 在 10 万 GPU 规模下需要四层交换机，光模块数量爆炸，延迟叠加严重。拓扑设计从"怎么连得多"变成"怎么连得聪明"。

逻辑层：包怎么转。 RoCEv2 的 ECMP 哈希在大规模下必然产生 flow collision，PFC 在多层拓扑里形成连锁风暴，动态路由收敛需要秒级而训练 job 需要微秒级。协议设计从"怎么转得稳"变成"怎么转得快且不怕坏"。

过去三年，这两个维度各自出现了一次范式级突破：

拓扑端：字节跳动 2025 SIGCOMM 最佳论文 ZCube，把拓扑设计从"专家直觉"变成"自动搜索"，发现非对称结构在 AI 训练场景下始终优于对称结构，在甜点规模省掉 60% 交换机。
协议端：OpenAI 联合 NVIDIA/AMD/Broadcom/Cisco/Arista 推出 MRC 协议，同时推翻了数据中心网络三十年的五个共识——从 ECMP 到 PFC 到动态路由全部重写，核心思想是把智能从交换机推到网卡。

但这两场革命不是独立发生的。ZCube 的 2 跳直径大幅简化了 MRC 的故障检测；MRC 的 SRv6 静态源路由让非对称拓扑的路径管理变得可行。 它们是同一个问题的两个面，必须放在一起理解。

拓扑革命：从通用无阻塞到 AI 负载专用

Clos 的三个假设

1953 年 Charles Clos 提出的无阻塞多级交换网络，构成了现代数据中心 Fat-Tree 拓扑的基础。1985 年 Charles Leiserson 将其引入并行计算。它有三个隐含假设：

流量模式不可预测——需要"任意输入到任意输出"的全二分带宽
大量独立小流——ECMP 哈希在统计上均匀分散
交换机同构——同一端口数、同一规格，简化采购和运维

在 AI 训练场景下，这三个假设全部动摇：集合通信模式高度规律（AllReduce/All-to-All 每个 step 重复相同模式，不需要"任意到任意"）；大象流容易碰撞（ECMP 在少量大流下不均匀）；ATOP 的自动搜索发现非对称结构始终优于对称结构。

规模天花板： 三级 64 端口交换机构建的胖树最大支持约 32K 端点；四级可到 ~64K，但延迟和成本急剧上升。三层 Clos 在 10 万 GPU 规模下要么需要四层（更高延迟/成本），要么 oversubscribe（带宽不保证）。

Rail-Optimized：从"通用连接"到"匹配通信模式"

NVIDIA DGX SuperPOD 参考架构采用的 Rail+Global 设计，代表了拓扑演进的第一步——不再追求全连接，而是匹配 AI 训练的实际通信模式。

核心思想：一台 GPU 服务器有 8 个 GPU，每个 GPU 有自己的 NIC。将所有服务器中相同位置的 GPU 连到同一台交换机，形成 8 条独立的 Rail。同 rank GPU 间通信只需单跳，大部分流量被吸收在 Leaf 层，Spine 压力降低。

Rail-Only vs Rail+Global： Rail-Only 省去顶层交换机、成本最低，但只支持高度局部化通信（如纯数据并行）。Rail+Global 增加 Spine 层支持 All-to-All 等全局通信，但成本上升。Rail-Optimized 拓扑对 AI 有效，但本质仍是对称拓扑——它没有挑战"交换机必须同构"的假设。

→ Rail-Optimized 拓扑的详细设计和 PD 分离推理场景分析，见姊妹篇之一。

ZCube：把拓扑设计变成超参数搜索

字节跳动联合清华大学的 ATOP（Automated Topology Optimization Pipeline）做了一件简单但从未有人做过的事：把拓扑设计的所有决策编码成 11 类超参数，用 NSGA-II 进化算法搜索 Pareto 前沿。

11 类超参数覆盖层间连接（GPU 数量、层数、每层节点数、分块参数、连接数、带宽因子 200G-800G）和层内连接（维度数、每维节点数、外向连接数、坐标计算因子），将搜索空间从邻接矩阵的 O(2^N²) 压缩到单台 256 核服务器 3 天内可搜索完毕。

14 个优化目标：9 个 DP/PP/Mixed 流量 JCT + 2 个 MoE JCT + ForestColl all-gather + APS 故障容错 + 成本。流级仿真器与 NS-3 包级仿真对比平均误差仅 1.5%。

非对称结构的发现： 在 256/1024/4096/16384 四个 GPU 规模的搜索中，Pareto 前沿拐点处的最优解都呈现相同的非对称特征——首尾层 2n 端口、中间层 3n 端口。论文将其形式化定义为 ZCube。

ZCube(n,k) 递归定义：

ZCube(n,1) = 1 个交换机 + n 个 GPU
ZCube(n,k+1) = n × ZCube(n,k) + n^k 个交换机
GPU 数 = n^(k+1)，交换机数 = (k+1) × n^k，每个 GPU 有 k+1 个 NIC 端口

关键参数： 网络直径 = k（ZCube(128,2) 的直径仅 2，vs 三层 Clos 的 5-7 跳）。低直径直接降低 PP 流量完成时间——这是端到端训练加速的主要来源。

16K GPU 定量对比

以 Broadcom Tomahawk 5（51.2T）交换机为例：

拓扑	交换机数	线缆	训练迭代时间	网络成本
ROFT	640	49,152×400G	5.19s	$92.93M
Rail-only	384	32,768×400G	5.15s	$76.38M
HPN	384	16,384×400G + 32,768×200G	5.10s	$84.03M
ZCube(128,2)	256	49,152×200G	4.95s	$57.28M

ZCube 交换机比 ROFT 少 60%，用 200G 线缆（vs 400G）光模块成本减 25-50%，训练速度快 3-7%，网络成本低 26-46%。

甜点规模与生产验证

ZCube(n,k) 要求每个 GPU 有 k 个 NIC 端口。k=2 意味着每 GPU 需 2 个端口（1 张 800G NIC breakout 成 2×400G），这是大多数服务器能支持的。k=3 大多数服务器做不到。

GPU 规模	最优 ZCube	交换机数	值得？
<500	—	—	❌ Flat 最优
512	ZCube(23,2)	46	⚠️ 优势不大
1024	ZCube(32,2)	64	✅ 甜点
4096	ZCube(64,2)	128	✅
16384	ZCube(128,2)	256	✅ 论文核心案例

1024 GPU 的 ZCube(32,2) 是甜点：64 口交换机完美映射 Tomahawk 5 标准配置，零端口浪费。智谱 AI 千卡推理集群从此规模受益——节省 1/3 光模块和交换机，推理吞吐提升 15%。

容错方面：16K GPU 单 ToR 故障时 ZCube 性能仅下降 2.8%（vs ROFT 的 46.9%）。无故障概率 ZCube 93%（vs ROFT 83%），交换机少本身就是更高可靠性的来源。

→ ZCube 的完整分析（ATOP 方法论、NVLink 域扩展、容错分析、生产验证细节、OCS 对比），见姊妹篇之一。

OCS：拓扑演进的另一条路线

ZCube 是"在电交换框架内优化拓扑"。还有一条路线：用光路交换（OCS）替代 Spine 层电交换机。

Google Apollo 从 2022 年起大规模部署 OCS（3D MEMS 微镜阵列），SemiAnalysis 估计节省超过 30 亿美元。SIGCOMM 2025 的 InfiniteHBD 更进一步——在光收发器级别集成动态连接能力。

维度	电交换	OCS
切换粒度	包级（μs）	电路级（ms）
延迟	多跳累积	全光路径，极低
功耗	每跳电处理	光路直通
适用场景	通用	粗粒度、可预测流量

OCS 的胜利条件：大流量、可预测模式、规模足够大使得 Spine 层成为瓶颈。AI 训练的集合通信正好满足。ZCube 和 OCS 不是竞争关系——ZCube 省电交换机，OCS 替 Spine 层，两者可以在不同规模点互补。

拓扑演进小结

四条演进方向并行：

从对称到非对称（ZCube）——ATOP 搜索证明非对称更优
从三层到两层（MRC 多平面 Clos）——OpenAI/Microsoft 压缩到两层
从电交换到光电混合（Google Apollo OCS）——Spine 层用光替代电
从交换机智能到端点智能（MRC）——路由决策权从交换机转移到 NIC

→ 拓扑的完整演进路径、定量对比、NVLink 域扩展、容错分析、物理约束（光模块成本、机柜功率、连线距离对拓扑选择的硬限制），见姊妹篇之一。

协议革命：从交换机智能到网卡智能

RoCEv2：现状与局限

RoCEv2（RDMA over Converged Ethernet v2）是当前 AI 训练网络的事实标准。延迟 2-5μs，运维成熟，跟 InfiniBand 性能差距仅 0.5%-3%。Meta 在超过 30K GPU 上大规模部署 RoCEv2 + DCQCN + ECN，是业界标杆。

但规模继续扩大，三重瓶颈连锁爆发：

ECMP 哈希冲突。 每条流被哈希到一条路径。AI 训练产生少量大象流（集合通信），两个大流撞到同一条链路就拥塞。规模越大，碰撞概率越高。

PFC 风暴。 RoCEv2 依赖 PFC 实现无损传输——接收端 buffer 快满了发 pause frame 让发送端停下。在多层拓扑里 pause frame 沿上游传播形成 head-of-line blocking，不同优先级的 pause frame 甚至可以互相死锁。

动态路由收敛。 BGP/OSPF 在链路故障后重新计算路由表，需要几十毫秒到几百毫秒。训练 job 对延迟极其敏感，一次收敛就可能导致 AllReduce 超时。

Meta 的 Ghost 论文（SIGCOMM 2024）揭示了更深层的问题：链路抖动导致拓扑知识失效，产生"幽灵"节点。这不是"修修 RoCEv2 就好"的问题——是设计假设在大规模下系统性崩塌。

RFC 9800：SRv6 源路由的基础设施

RFC 9800（2025 年 6 月发布）定义了 Compressed SRv6 Segment List Encoding（C-SID/uSID/micro-SID）。SRv6 每个标准 SID 占 128 bit，10 段路径需要 160 字节开销，在大规模数据中心不可接受。C-SID 将多个 16-32 bit 压缩 SID 打包进一个 128-bit 容器，SRH 开销降低 50%+。

两种实现路线：NEXT-C-SID（Cisco/F5 主推，shift-and-lookup）和 REPLACE-C-SID（中国移动 2022 年云骨干网大规模部署，10+ 厂商互操作测试）。

对 AI 网络的意义：源路由实现多路径——发送端在包头编码完整路径，交换机无需运行动态路由。C-SID 压缩使编码开销可控。微秒级故障绕行——路径信息在包头而非转发表中，NIC 检测到故障后立即切换备用路径。

MRC：推翻五个共识

2026 年 5 月，OpenAI 联合 AMD/Broadcom/Intel/Microsoft/NVIDIA 在 OCP 发布 MRC（Multipath Reliable Connection）。不是修补 RoCEv2，是逐条推翻：

共识	传统做法	MRC 做法	核心变化
负载均衡	ECMP 哈希（流级别）	Entropy Value 包喷射（包级别）	消除 flow collision
无损传输	PFC（pause frame）	禁用 PFC + 选择性重传	消除 head-of-line blocking
有序交付	单路径有序	乱序直写（每包携带虚拟地址）	消除排序延迟
路由	动态路由（BGP/OSPF）	SRv6 uSID 静态源路由	消除收敛延迟
拥塞控制	交换机+主机协同	交换机只做 ECN 标记	消除控制平面冲突

设计哲学：把智能从交换机推到网卡，让交换机回归无状态转发。

MRC 是对 RoCEv2 RC 传输层的最小化扩展，仅保留 RDMA Write 和 Write-with-Immediate（AI 工作负载只需子集功能），复用现有 RDMA Verbs/QP 体系。MRC 明确"借鉴了 UET 的多项技术"（论文原文）。

多平面两层 Clos： 每个 800G NIC breakout 为 8×100G 连 8 台 T0 交换机。51.2T 交换机从 64×800G 变为 512×100G，单平面容纳 131,072 GPU。与三层拓扑相比：光模块只需 2/3，交换机只需 3/5，最长路径仅 3 跳。

生产部署： OpenAI 最大 NVIDIA GB200 超算（包括 Oracle/OCI 德州 Abilene 站点）、Microsoft Fairwater（Atlanta + Wisconsin）。训练过程中热重启 4 台 T1 交换机，无需协调训练团队，任务继续运行。

UET：并行演进

UEC（Ultra Ethernet Consortium，120+ 成员，Linux Foundation 历史上增长最快的工作组）2025 年 6 月发布 UET Specification 1.0。技术根基约 75% 来源于 HPE Slingshot 传输协议。

UET 与 MRC 共享多项核心概念：包喷射、乱序放置、选择性重传、packet trimming。关键差异：

维度	MRC	UET
设计路径	RoCEv2 RC 最小扩展	全新传输栈
软件接口	RDMA Verbs（Write+WriteImm）	libfabric v2.0
流控	禁用 PFC	Credit-based
源路由	SRv6 uSID	无（依赖交换机路由）
部署门槛	中（MRC NIC + SRv6 交换机）	高（全新软件栈）
生产验证	OpenAI/MS 131K GPU	规范刚发布

AMD 贡献的 NSCC 拥塞控制算法同时成为 UEC 拥塞控制规范的一部分。MRC 和 UET 是互补而非竞争——MRC 走实用主义快速部署，UET 走全新传输栈长期演进。

InfiniBand：封闭生态的最后堡垒

NVIDIA 通过收购 Mellanox 主导 IB 生态。XDR（800 Gb/s）正在部署（Quantum-X800 + ConnectX-8），GDR（1600 Gb/s）在路线图上。

IB 的技术优势：原生无损（credit-based，无 PFC 风暴）、原生多路径、超低延迟（1-2μs）、NVIDIA 全栈保证兼容性。劣势：成本高、供应商锁定（实质只有 NVIDIA）、运维人才稀缺、生态封闭。

趋势判断： IB 在 2026 年仍占高端市场，但中长期被 Ethernet（MRC/UET）蚕食是大概率事件。NVIDIA 自身也同时支持两条路线（ConnectX-8 同时支持 RoCEv2 和 MRC）。Gartner 预测到 2029 年 >65% 生成式 AI 集群将基于以太网。

协议对比矩阵

维度	RoCEv2	MRC	UET	InfiniBand
多路径	无（ECMP 流级）	✅ 包喷射 128-256 路径	✅ 包喷射	✅ 自适应路由
丢包恢复	Go-Back-N/选择性重传	选择性重传 + trimming	选择性重传 + trimming	链路级+传输级重传
流控	PFC（无损）	禁用 PFC	Credit-based	Credit-based
源路由	无	SRv6 C-SID	无	无
故障恢复	秒级（路由收敛）	微秒级（NIC 绕行）	毫秒级（待验证）	秒级（Subnet Manager）
部署复杂度	中	中高	高	中（NVIDIA 一体化）
成本	低	中	中	高
适用规模	≤64K GPU	100K+ GPU	100K+ GPU	≤64K GPU（经济规模）

标准化格局

三条路线并行：IETF（SRv6/RFC 9800）提供底层源路由基础设施；OCP（MRC）走实用主义，最小化修改 RoCEv2 快速部署；UEC（UET/UEC 1.0）走全新传输栈。三者不互斥：MRC 借鉴 UET 技术，SRv6 服务于 MRC 源路由需求。

→ 协议核心机制（EV 状态机细节、SRv6 uSID 转发流程、Packet Trimming、NIC/交换机芯片定量分析）、协议对比矩阵和标准化进展（IETF/OCP/UEC/IEEE/IBTA）的详细分析，见姊妹篇之二。

为什么这两场革命互为前提

这是本文最核心的论点：拓扑和协议的这两场革命是深度耦合的协同设计，不能独立选择。

协同效应一：短直径降低协议复杂度

ZCube 的 2 跳直径不只是降低延迟——它直接简化了传输协议的所有关键环节：

故障检测更快： MRC 的 EV 四状态机（active → congested → suspected_failed → confirmed_failed）在每 RTT 内判断路径是否存活。2 跳拓扑的 RTT 远短于 5-7 跳的三层 Clos，收敛更快、置信度更高
SRv6 开销更小： 2 跳只需 2-3 个 uSID 段，包头压缩后几乎无开销。5-7 跳需要更多段，累积开销挤占有效载荷
乱序重排更简单： 包经过的中间节点越少，乱序程度越低，NIC 端 reorder buffer 和 SACK 逻辑越轻

反过来说，MRC 在传统三层 Clos 中也能工作，但 5-7 跳路径削弱了包喷射优势，SRv6 开销更大，故障检测更慢。

协同效应二：源路由让非对称拓扑变得可行

传统 ECMP 要求多条等价路径——这隐含了对称拓扑假设。非对称拓扑（ZCube 首尾层 2n vs 中间层 3n）在 ECMP 下路径数量不等，某些链路可能被过度使用或闲置。

MRC 的 SRv6 静态源路由绕开了这个约束：NIC 在发包时编码完整路径，交换机只需按 SRv6 头转发，不需要理解拓扑结构。 路径管理从"交换机需要复杂路由协议"变成"NIC 端预计算 + 静态编码"。

没有 MRC（或类似源路由机制），ZCube 的非对称结构在生产环境中的路径管理会复杂得多。反过来，没有 ZCube 这类短直径拓扑，MRC 的包喷射和快速故障检测优势也被削弱。

协同效应三：交换机简化与拓扑成本的双重节省

维度	传统三层 Clos + RoCEv2	ZCube + MRC
交换机数量	基准	-60%
单交换机复杂度	需大量 TCAM/Buffer/PFC	净减 ~50MB buffer，无动态路由
光模块数量	基准	-40%（更短路径 = 更少光模块）
故障恢复	~100ms（路由收敛）	~10μs（NIC 自主绕行）
每流路径数	1	128-256
NIC 端开销	基准	+16KB/QP（EV/SRv6/SACK/重传/OOO）

网络成本下降不是只靠拓扑或只靠协议，而是两者协同。 交换机变简单了所以数量减少不牺牲可靠性；拓扑变浅了所以协议故障检测窗口缩短。

这不是两个独立选择的组合

选了 ZCube 但用 RoCEv2：非对称拓扑在 ECMP 下路径管理困难，PFC 连锁反应没有消除
选了 MRC 但用传统三层 Clos：5-7 跳削弱包喷射，SRv6 开销更大，故障检测更慢
只有两者配合，才能实现 2 跳 + 源路由 + 无 PFC + 微秒级故障恢复

→ 更详细的技术分析：姊妹篇之一「从 CLOS 到 ZCube」中的「ZCube 与 MRC 的协同」节（2 跳直径对 EV 状态机的简化、非对称拓扑对源路由的需求、k 端口与多路径的关系），以及姊妹篇之二「从 RoCE 到 MRC」中的「MRC 与非对称拓扑的协同」节（源路由让非对称可行、短路径放大包喷射效果、未探索的联合优化空间）。

芯片产业格局

NIC：从配件变成核心

传统 NIC 是服务器附属品，功能简单。MRC 让 NIC 变成网络智能的核心——EV 状态机、SRv6 编码、包喷射调度、乱序重排全部在 NIC 端完成。Per-QP 状态从 512 字节膨胀到约 16KB（EV set 2KB + SRv6 映射 4KB + SACK 0.5KB + 重传 8KB + OOO tracker 1.5KB），2000+ QP 规模下 on-chip SRAM 不够用，需要 DDR 或 HBM。

厂商	产品	策略	SRv6	MRC
NVIDIA	ConnectX-8	固件实现 + DDR 缓存	✅	✅
AMD	Pollara 400	硬件实现 + HBM 缓存	✅（通过 UEC）	✅（首款兼容）
Broadcom	Thor Ultra	NPL 可编程	✅ 原生	✅ 原生

NIC die cost 上升趋势明显：MRC 功能占 die 面积约 15-20%。对 NVIDIA/Broadcom 可接受，对后来者是更高门槛。

交换机：变简单但不变便宜

MRC 让交换机回归无状态转发——净减 ~50MB buffer + 大量 TCAM。但带宽需求指数增长：102.4T → 204.8T，需要更先进的 SerDes（200G→400G/lane）和 CPO（共封装光学）。

芯片	世代	带宽	MRC 支持	关键特性
Broadcom TH6	102.4T	64×800G / 128×400G / 512×100G	✅ 硬件支持	Cognitive Routing 2.0, Packet Trimming (CSIG)
Cisco G300	102.4T	64×800G	✅ P4 实现	uSID 加速，可编程性强
NVIDIA Spectrum-6	102.4T	64×800G	有限/路线图	与 IB 统一运维栈
Marvell Teralynx 10	51.2T	64×800G	-	当前不支持多路径
华为 CloudEngine	—	—	-	中国市场主导

芯片×协议矩阵： Broadcom 凭 TH6 + Thor Ultra 端到端方案在 MRC 支持上领先；Cisco 通过 P4 可编程保持灵活性（不换硬件支持新协议）；NVIDIA 在 IB 生态保持独家。MRC/UET 支持是 102.4T 世代的关键差异化——不支持多路径可靠传输的交换芯片将在 AI 市场被边缘化。

路径到 204.8T： 200G/lane SerDes 设计难度指数增长，CPO 从"可选"变为"必需"，chiplet 架构的跨 die 一致性是未解决问题。

竞争格局

路线	参与者	优势	劣势
封闭全栈	NVIDIA（IB+ETH+GPU）、Google（TPU+ICI+OCS）	极致性能、紧耦合	高成本、供应商锁定
芯片+设备	Cisco（Silicon One+Nexus）、华为（自研+CloudEngine）	差异化+可控性	生态面窄
设备+软件	Arista（Broadcom芯片+EOS）	软件差异化	芯片依赖 Broadcom
组件供应	Broadcom、Marvell	横向平台	利润率低

开放生态（MRC/OCP + UEC，120+ 成员）正在系统性挑战封闭生态。大部分超大规模客户选择混合策略：核心训练用 NVIDIA IB，Scale-out 和推理用开放以太网。

谁在用什么

云厂商	网络方案	规模	关键特征
OpenAI/MS	MRC + 多平面两层 Clos	131K GPU	MRC 最大生产部署
Google	OCS + ICI + Virgo	TPU 全栈自研	唯一完全自研路径
Meta	RoCEv2 + 大规模调优	>30K GPU	RoCEv2 + ECN/DCQCN 最大规模部署；Ghost 论文揭示可靠性风险
字节	ZCube + Rail-Optimized	16K GPU	ZCube 论文来源
阿里	HPN + Stellar	>15K GPU	SIGCOMM 2025 论文贡献最多（11 篇）
AWS	EFA/SRD	自研	不走主流路线
xAI	以太网	—	Arista + Broadcom

软件侧共同趋势：

AI 驱动的网络运维（AgenticOps/意图驱动网络）成为管理平台新战场
从"手动调 PFC/ECN 参数"走向"AI 自适应调优"
可观测性投入急剧增加——10 万 GPU 的网络状态无法人工巡检

中国市场的特殊性：

国产替代不可逆，华为 + 新华三 + 锐捷主导
2025 年国内 800G 交换机出货量从 2023 年 1.5 万台增长到 6 万台（CAGR >100%）
DeepSeek 等国产大模型带动推理侧 200G/400G 交换机需求
SIGCOMM 2025 中国机构贡献极为突出（阿里 11 篇、字节 2 篇最佳论文、清华/北大/HKUST）——超大规模实践需求驱动系统性学术创新

决策框架

按规模选拓扑 × 按场景选协议

GPU 规模	推荐拓扑	推荐协议	理由
>50K	Multi-Plane 两层 Clos	MRC + SRv6	故障恢复和包喷射是刚需
10K-50K	Multi-Plane 或 Rail+Global	MRC 或 RoCEv2+调优	过渡区间
1K-10K	ZCube / Rail-Optimized	RoCEv2 或 MRC	ZCube 甜点区间
<1K	1x1 / 扁平	RoCEv2	协议选择不敏感

按场景的差异

大规模同步预训练（>10K GPU）： 对尾延迟和故障恢复最敏感。MRC 的包喷射和微秒级故障绕行是最佳选择。Multi-Plane 两层 Clos 提供最短路径。

中等规模训练（1K-10K）： RoCEv2 + DCQCN + ECN 调优在当前规模下可管理。ZCube 提供更高成本效率。

推理服务： 对成本和吞吐更敏感，对尾延迟要求低。ZCube 在推理场景优势最显著（智谱 AI 15% 吞吐提升 + 1/3 硬件节省）。

混合负载（训练+推理+通用）： 考虑 RoCEv2 + UET 演进路线，或分区域部署（训练区 MRC + 推理区 ZCube）。

中国产业：差距与机会

→ 完整分析见姊妹篇之二「从 RoCE 到 MRC」中国产业章节。核心判断：

硬件差距： 国产 NIC 芯片在 MRC 支持上落后 1-2 代，短期无法生产 ConnectX-8/Thor Ultra 等价产品
软件差距： MRC 的开源实现（OCP）给追赶窗口，但需要深度参与标准制定
机会： 中国超大规模部署的实践需求正在驱动原创学术贡献。ZCube 本身就是字节+清华的工作

关键判断与风险

核心判断

判断一：以太网将在 3-5 年内成为 AI 后端网络的主流。 RoCEv2 + MRC/UET 系统性解决以太网在 AI 场景的三个核心短板（单路径、PFC 风暴、慢故障恢复）。InfiniBand 不消失，但从主流退守到对延迟极端敏感的高端细分。

判断二：MRC 是当前最激进的以太网方案。 MRC + SRv6 + 多平面 Clos 代表最前沿设计：消除动态路由、用源路由替代、用包喷射替代 ECMP、用多平面替代多层。OpenAI 和 Microsoft 的生产验证提供最强实践背书。

判断三：拓扑设计从"工程直觉"走向"自动搜索"。 ATOP 的方法论贡献大于 ZCube 本身——可重复使用、消除认知偏差、支持多目标。当新硬件/新模型出现时重新运行即可，无需从零设计。

判断四：开放生态正在系统挑战封闭生态。 MRC（OCP 开源）、UET（UEC 120+ 成员）、P4 可编程芯片、多供应商设备——正在构建不需要绑定 NVIDIA 的高性能 AI 网络。但 NVIDIA 最高端全栈优化仍不可替代。

判断五：中国机构在 AI 网络学术研究中已全球领先。 不是偶然——超大规模实践需求驱动系统性创新。

关键风险

MRC 互操作性： 在多厂商异构环境中尚未充分验证。UET 仍早期，从规范到大规模部署需 1-2 年
PFC 替代方案的不确定性： MRC 禁用 PFC、UET 用 credit-based、SIGCOMM 2025 DCP 提出第三条路——哪种能在最广场景稳定运行需更多验证
Ghost 问题： 链路抖动导致拓扑知识失效，10 万 GPU 规模可能成为系统性风险，仅靠更快故障检测无法根本解决
1.6T 物理层： 200G/lane SerDes 难度指数增长，CPO 可维修性和供应链未解决，204.8T chiplet 跨 die 一致性是未知数
供应链地缘政治： 出口管制和国产替代要求影响设备可获得性和成本

三年路线图

2026： MRC 在 OpenAI/MS 外开始小规模部署。ZCube 在字节/智谱外被其他厂商尝试。UEC 1.0 互操作测试启动。102.4T 交换芯片量产。

2027： 800V 配电 + 102.4T + MRC 的"黄金组合"成为新建超大规模训练集群默认方案。OCS 在非 Google 环境试点。1.6T 端口和 CPO 小规模部署。

2028： UET 生态成熟，与 MRC 互补。204.8T 芯片量产。拓扑-协议协同设计成为主流方法论——ATOP 类工具集成 MRC 约束做联合搜索。

对不同角色的建议

AI 基础设施决策者：

短期（2026）：新建训练集群优先考虑以太网 + RoCEv2，选择支持 MRC 升级路径的设备；1K-10K 规模考虑 ZCube
中期（2027-2028）：MRC/UET 生态成熟后评估迁移；关注 1.6T 和 OCS 部署时机
避免锁定：选择 P4 可编程交换芯片为协议演进留空间

网络设备厂商：

差异化从"速率竞争"转向"架构竞争"——Buffer 管理、可编程性、负载均衡策略
软件价值：AI 驱动网络运维（AgenticOps）、意图驱动网络（IBN）是新战场
中国厂商：国产替代窗口加速，华为全栈 + 新华三 DDC 创新有差异化空间

芯片厂商：

MRC/UET 支持是 102.4T 世代的关键差异化
CPO 能力是 204.8T 世代入场券
P4 可编程性为客户提供"标准未定，芯片先行"的保险

研究者和投资者：

关注信号：MRC 采纳速度、UEC 互操作结果、ZCube 64K+ 验证、OCS 非 Google 部署
投资方向：光互联（CPO/DSP/硅光子）、开放以太网生态（UEC/MRC）、AI 网络管理、中国国产替代

附录：论文与标准追踪

SIGCOMM/NSDI 论文

SIGCOMM 2025（AI 网络核心论文）：

ZCube / ATOP（字节+清华）——最佳论文，拓扑自动搜索
InfiniteHBD（OCS 光路交换新方案）
DCP（去 PFC 拥塞控制新方案）

SIGCOMM 2024：

Ghost in the Datacenter（Meta）——链路抖动导致拓扑知识失效
MegaScale / ByteScale（字节）——大规模训练系统工程

IETF / OCP / UEC / IEEE / IBTA 标准

→ 详见姊妹篇之二「从 RoCE 到 MRC」中的标准化格局节。核心标准：RFC 9800（SRv6 C-SID）、MRC 1.0（OCP）、UET 1.0（UEC）、802.3dj（1.6T 以太网推进中）、XDR（IBTA）。

三篇系列导航

篇目	聚焦	核心内容
本文（综述）	双轴协同框架	拓扑×协议的交叉关系、芯片/设备/云厂商格局、决策框架、风险与路线图
姊妹篇上：拓扑	物理层深度	ATOP 方法论、非对称结构、甜点规模定量对比、NVLink 域扩展、容错分析、生产验证、OCS、物理约束
姊妹篇下：协议	逻辑层深度	MRC 五个共识推翻、EV 状态机、SRv6 uSID 转发、Per-QP 状态、三家 NIC 对比、交换机资源加减法、中国产业差距

两场革命，一张网络：AI 训练集群的拓扑与协议协同重构