昇腾超节点的架构跃迁：从训练优先到 Agent 优先

KADC 2026 系列分析 · 第 1 篇 · AI Infra / 硬件架构演进

昇腾 950 单卡 FP8 算力大约只有 NVIDIA B300 的 23%。如果按"单卡对标"的逻辑看，这个数字几乎是判了死刑。但华为在 KADC 2026 上几乎不再谈单卡性能，全部叙事重心转向"超节点"——8192 张卡通过 UB 2.0 互联构成的单一计算域。

一个单卡被甩开 4 倍以上的玩家，把所有筹码压在了系统级架构上。这个叙事转变本身就值得认真对待。它背后是一个核心判断：AI 算力的竞争焦点，正在从单卡算力转向大规模互联系统的效率。

这个判断对不对？取决于你对模型架构和部署形态的预测。让我们拆开来看。

一、三代架构的演进：从追赶单卡到赌互联

910B（2023-2024）：追赶者的常规路径

昇腾 910B 的定位很明确——对标 A100，以训练为核心场景。那个阶段华为要回答的问题很简单：能不能在制裁环境下造出一块可用的 AI 训练卡？答案是可以，但代价是单卡性能差距被 H100 进一步拉开。

这个时期昇腾的架构选择没有太多花哨的地方：单 Die 设计，标准的 HBM 互联，DAV 架构。思路是"先把基础能力做出来"。在 2023-2024 年的语境下，这个判断不算错——大模型训练正在爆发，市场需要的是"能跑起来"的替代方案，架构创新的空间不大。

910C（2024-2025）：Chiplet 补制程

910C 是一个过渡产品，但过渡的方向很值得关注。华为在这个节点做了两个关键选择：

第一，用 Chiplet 封装绕开制程限制。 先进制程被制裁封锁，单 Die 面积和晶体管数量有硬天花板。910C 用多 Die 封装把问题从"造一个更大的 Die"转成了"怎么把几个 Die 有效地连在一起"。这是典型的架构层面应对，而不是工艺层面的死磕。

第二，先在小规模验证超节点理念。 CloudMatrix 384 卡集群就是用 910C 搭的。这个集群跑了 DeepSeek-R1 的推理，EP320（320 路专家并行），decode 达到 1943 tokens/s/NPU。这个数据本身不是重点——重点是它在验证一件事：大规模 EP 部署在昇腾平台上到底能不能跑通。

答案是能跑通，但 384 卡这个规模，也只是超节点理念的一个中间验证站。

950（2025-2026）：互联架构的大赌注

950 是华为真正把"互联优于单卡"这个判断贯彻到芯片设计里的产品。

架构上，950 采用了 UMA（Unified Memory Architecture）封装：2 颗 AI Die + 2 颗 IO Die，通过 D2D Clink 互联。注意这个设计——AI Die 负责计算，IO Die 负责对外通信。把通信功能从计算 Die 上剥离出来，本身就是"互联优先"理念在物理布局上的体现。

950PR（推理优化版）配 8 颗 HiBL，128GB 内存，1.6TB/s 带宽。950DT（训练版）配 4 颗 HiZQ，144GB 内存，4TB/s 带宽。推理版给了更多通道但每通道带宽低一些，训练版通道少但总带宽高。这个分叉设计本身就说明华为已经把推理和训练当作两个不同的工程问题来处理了——这跟 NVIDIA 做通用 GPU 的思路不同。

但 950 最关键的特性不在芯片内部，而在芯片之间：UB 2.0 互联，单卡双向带宽 2016 GB/s。

这个数字需要横向对比才能理解其分量。NVIDIA NVLink 5 的双向带宽大约是 900 GB/s（单卡），NVLink 域上限 72 卡（NVL72）。华为用 UB 2.0 把单卡互联带宽做到了超过 NVLink 的 2 倍，而且把域上限推到了 8192 卡——差了两个数量级。

代价是什么？后面再展开。先说清楚这个选择的逻辑。

二、超节点为 Agent 负载做的硬件级优化

华为在 KADC 2026 上反复强调的场景不是训练，不是批量推理，而是 Agent。这个选择值得深究。

为什么 Agent 改变了硬件设计？

传统的大模型推理是"一问一答"：用户发一个请求，模型吐一段输出，结束。Agent 不一样——一个 Agent 任务可能涉及 50-100 次模型调用，每次调用的输入上下文可能极长，而且这些调用之间有依赖关系，延迟会累积。

廖恒在 KADC 2026 上给了一组关键数据：

调用频次增长 50-100 倍：一个 Agent 任务的模型调用次数 vs 一次普通对话
序列长度从 4K 到接近 1M：250 倍增长，因为 Agent 需要携带大量历史上下文
KV Cache 命中率突破 95%：重复上下文占比极高

这三组数据合在一起，画出了一个全新的负载画像：极高频、极细粒度、极重缓存。 这跟训练负载（大包、低频、计算密集）完全不同，也跟传统推理负载（中等频次、短序列）不同。

EP 通信：7KB 包的噩梦

MoE 模型的 Expert Parallelism（EP）部署是 Agent 推理的关键瓶颈。每次 token 生成都要经过一次 All-to-All 通信，把 token 路由到正确的专家，再收回来。

这个 All-to-All 的包大小是多少？7-14KB。

这太小了。传统数据中心网络（以太网/InfiniBand）的设计目标是处理 MB 甚至 GB 级别的数据传输，协议栈开销（TCP/IP 封装解封、DMA 拷贝、中断处理）在 7KB 这个尺度上会成为吞吐量的绝对瓶颈。你发 7KB 的包，真正在线路上传数据的时间可能不到总时间的 20%，剩下全是开销。

这就是为什么 EP 通信必须在 Scale Up 域内完成，而不是通过 Scale Out 网络。在 Scale Up 域内，你可以用完全不同的通信机制。

华为给出了两种机制：

UB Memory Load/Store 语义。 小规模通信时，NPU 直接用 Load/Store 指令读写远端卡的内存——没有 DMA 描述符的组装，没有中断通知，没有协议栈。对 CPU 来说就像访问本地内存一样（当然延迟更高），但对 NPU 之间的细粒度通信来说，这比传统的 DMA 发送-接收模式快得多。

DMA 语义。 大块数据传输时仍然走 DMA，因为 DMA 的吞吐上限更高。但 EP 通信以 7-14KB 为主，正好落在 Load/Store 的甜区。

这个分叉设计是有工程判断力的——不是简单地选一个方案，而是根据实际负载特征做差异化。Load/Store 对小包、DMA 对大包，两者在同一个 UB 网络上共存。

950 还在硬件层面做了集合通信硬化：CCU（Collective Communication Unit）直接在硅片上实现 AllReduce/AllGather/All-to-All 的原语，不需要通过软件层逐卡调度。这意味着 All-to-All 的启动延迟可以被压到极低——对于 Agent 推理的时延目标（从 10ms 到 5ms 到 1ms），每一点微秒级的延迟优化都在边际上起作用。

SSU + UB 直连：KV Cache 的架构革命

这是 950 超节点里最有意思的创新。

传统架构下，NPU 要访问 SSD 上的 KV Cache，路径是这样的：

NPU → PCIe → CPU → 内存 → 操作系统文件系统 → 存储驱动 → NVMe → SSD

往返一次，经过 CPU 的地址转换（IOMMU）、操作系统的 VFS 层、文件系统的元数据查找、块设备的 I/O 调度。这条路径的延迟在微秒到毫秒级。对于 Agent 推理那种一秒钟要做几十次 EP 通信的场景，这根本不可接受。

950 的 SSU（Solid State Unit）架构跳过了中间所有层：

NPU → UB 端口 → SSU

NPU 直接通过 UB 2.0 的端口命中 SSU 上的 KV Cache。没有 CPU 参与，没有操作系统参与，没有文件系统参与，没有地址转换。NPU 看到的就是一个可以直接寻址的 KV Cache 空间。

这个设计的工程代价是什么？SSU 不再是一个通用的存储设备，它变成了 UB 网络的一个专用端点。你不能用它来存文件系统数据，不能跑数据库，它就是一个专用的 KV Cache 存储单元。

在通用性和极致性能之间，华为选了极致性能。这个选择是否正确，取决于 Agent 推理场景的 KV Cache 访问模式是否真的如预期那样高频、高命中率。廖恒给的数据是 95%+ 命中率——如果这个数字成立，那 SSU 的专用化就是值得的。

Agent 时延的工程极限

从 10ms 到 5ms 到 1ms 的 MoE 推理时延目标，不是随便说的数字。这是 Agent 交互体验的关键阈值：

10ms：可接受，但 Agent 链路累积后体感明显
5ms：流畅，Agent 可以做复杂的多步推理
1ms：接近实时，Agent 的响应速度不再受模型推理约束

要达到 1ms，EP 通信的 All-to-All 必须在亚毫秒级完成。这要求：

通信在 Scale Up 域内完成（消除跨网络延迟）
Load/Store 语义替代传统 DMA（消除协议开销）
CCU 硬件加速（消除软件调度延迟）
SSU 直接命中 KV Cache（消除存储访问延迟）

四个条件缺一不可。950 超节点的架构设计是围绕这四个条件做的整体优化，而不是零散的特性堆叠。

三、系统综合性能公式：规模 × 单卡

廖恒在演讲中提出了一个公式：系统综合性能 = 超节点规模 × 单芯片性能规格。

这个公式在特定条件下成立，但需要仔细分析它的适用边界。

成立条件

当工作负载可以被有效并行化、通信开销可以被 Scale Up 域的高带宽低延迟消化时，规模优势可以线性甚至超线性地放大系统性能。典型场景：

MoE EP 推理：专家天然分布在不同的卡上，All-to-All 通信模式规整，可以充分利用 UB 的带宽
长序列推理：KV Cache 分布在超节点内的 SSU 上，命中率高时通信开销极低
大规模训练的数据并行：AllReduce 在 CCU 硬件加速下效率很高

在这些场景下，8192 卡 × 23% 单卡性能 > 72 卡 × 100% 单卡性能，公式成立。

失效条件

第一种失效：通信模式不规则。 如果模型的通信模式不是规整的 All-to-All 或 AllReduce，而是大量小规模的点对点通信，那超节点的大域反而可能带来调度开销。NPU 之间的路由跳数增加，延迟可能不如小域直接互联。

第二种失效：内存带宽受限的算子。 有些算子（比如 Attention 的某些变体）是内存带宽瓶颈而非通信瓶颈。这时单卡的内存带宽就是硬约束——950PR 的 1.6TB/s vs B300 的 8TB/s，差了 5 倍，再多的卡也补不回来。

第三种失效：编程模型的复杂度。 8192 卡的单一计算域，意味着编程模型要处理比 72 卡复杂得多的资源管理。故障恢复、负载均衡、热迁移——规模每大一个数量级，系统的工程难度不是线性增长，而是指数增长。目前昇腾的软件栈（CANN、MindSpore）是否成熟到能稳定管理 8192 卡的单域，还是一个需要持续验证的问题。

第四种失效：成本效率。 如果 8192 张 950 的总成本（硬件 + 供电 + 散热 + 软件适配）远超 72 张 B300 的方案，那规模优势在商业上就不成立。这个算账华为没有在 KADC 上做，但任何做采购决策的 CTO 都会做。

四、与 NVIDIA 的架构路线对比

NVL72 vs 超节点 8192

NVIDIA 的 Scale Up 域上限是 72 卡（NVL72），通过 NVLink 5 互联。这个规模设计反映的是 NVIDIA 的一个不同判断：在单 Die 性能足够强的情况下，一个较小的 Scale Up 域就够了。

72 卡的 NVL 域可以放下一套完整的模型副本（比如一个 700B 的稠密模型），Scale Out 用 InfiniBand 处理跨域通信。好处是域内管理简单，故障域小，软件栈成熟。

华为的 8192 卡超节点则反其道而行：把 Scale Up 域做大，尽量减少 Scale Out 通信的占比。好处是 EP 通信等细粒度操作不需要跨域，代价是域内管理的复杂度急剧上升。

NVIDIA 的应对：NVL576

NVIDIA 不是没有看到这个问题。NVL576 是通过 NVLink 网络扩展把 Scale Up 域从 72 扩到 576。但这个方案目前的进展比预期慢——工程难度在于，NVLink 网络扩展不仅仅是多连几条线，它需要解决路由、拥塞控制、一致性协议等一系列问题。在这些问题没解决之前，576 卡域的稳定性不如 72 卡域。

GB300 NVL4 是另一个方向：Grace CPU + 4 张 B300，一个小而美的节点，适合中小规模部署。这个产品反映的是 NVIDIA 对市场分层的理解——不是所有客户都需要超大规模集群，很多客户需要的是 4-8 卡的高效节点。

两条路线的本质差异

NVIDIA：单 Die 极致 + 小域互联 + 软件生态。 把单 Die 性能拉到工艺极限，用成熟的 NVLink 在小域内互联，Scale Out 靠 InfiniBand + NVSwitch 的分层架构。软件生态（CUDA）的护城河让客户即使面对更高硬件成本也不容易迁移。

华为：封装创新 + 大域互联 + 场景专用。 用 Chiplet 绕开制程限制，用 UB 2.0 做超大域互联，用 SSU 等专用硬件做场景级优化。放弃通用性，在特定场景（Agent 推理、MoE EP）上追求极致效率。

这两条路线没有简单的优劣之分。它们各自赌的是不同的未来：

NVIDIA 赌的是：AI 算力的需求会继续多样化，通用 GPU 的生态优势会持续，单 Die 性能的迭代速度足够快
华为赌的是：Agent 推理会成为 AI 算力的主导负载，这个负载的通信特征（极细粒度、极高频）会使得互联架构比单卡算力更重要

制程天花板下的时间窗口

华为的方案有一个不可忽视的风险：它依赖制程差距不进一步拉大。

目前 950 用 Chiplet 在一定程度上弥补了制程劣势，但芯片互联本身也有开销——D2D Clink 的带宽和延迟不如单片 Die 内部的互联。如果 NVIDIA 的下一代架构（Rubin/Rubin Ultra）在单 Die 性能上再拉开一个身位，那 23% 这个数字可能变成 15% 甚至 10%。到那时，8192 卡的规模优势能不能补回来就不好说了。

换句话说，华为的超节点方案有一个时间窗口：在制程差距可控的前提下，通过架构创新在系统层面形成竞争力。这个窗口期的长短取决于：(1) 制程制裁的演变；(2) NVIDIA 单 Die 性能迭代的节奏；(3) Agent 负载实际爆发的速度。

五、判断

什么条件下昇腾超节点的架构选择是正确的

Agent 推理成为 AI 算力的核心负载。 如果 2026-2027 年 Agent 部署量确实爆发，MoE EP + KV Cache 的场景特征如华为预期，那 UB 2.0 + SSU + CCU 的专用化设计会在边际效率上形成真正的差异化优势。
超节点规模可以稳定跑满。 如果 8192 卡的单域能在生产环境中稳定运行（不是跑 demo，而是 7×24 的商业服务），那规模的规模经济就会起作用。这需要软件栈的成熟度跟上硬件架构的野心。
制程差距不显著扩大。 Chiplet 封装 + 互联创新可以在一定范围内弥补单 Die 劣势，但不是无限的。如果制程差距被控制在 1-2 代以内，系统级方案就有竞争力。

什么条件下会成为劣势

模型架构发生根本性变化。 如果下一代主流模型不再依赖 MoE 的 EP 模式，或者 Attention 机制被完全替代（从而 KV Cache 不再重要），那华为为这些场景做的专用硬件优化就失去了目标。
NVIDIA 在 Scale Up 规模上追赶。 如果 NVL576 或后续方案成功把 Scale Up 域扩展到 512+ 卡，同时保持单 Die 性能优势，那华为的规模优势窗口会迅速收窄。
软件生态差距持续。 硬件架构再好，如果客户要把整个技术栈从 CUDA 迁移到 CANN 的成本太高，迁移就不会发生。这是华为目前最大的结构性障碍，不是靠硬件设计就能解决的。

需要持续跟踪的验证节点

950 超节点的实际部署数据。 8192 卡的集群在多大负载下能稳定运行？实际 EP 通信延迟是多少？SSU 的 KV Cache 命中率在生产环境中能否维持 95%？
CloudMatrix 商业化进度。 384 卡的 CloudMatrix 已经验证了 DeepSeek-R1，但商业化部署的客户反馈如何？成本效率的账算不算得过来？
NVIDIA NVL576 的进展。 如果 2026 年底 NVL576 能量产，Scale Up 域从 72 扩到 576，那竞争格局会重新洗牌。
Agent 推理的实际商业需求。 所有架构选择的前提是 Agent 真的需要 50-100 倍的模型调用频次和 1M 的序列长度。如果实际部署中这些数字打了折，那专用化设计的 ROI 也会打折。

结语

昇腾 950 超节点的架构设计，本质上是一个不对称竞争策略：在无法赢得单卡性能竞赛的条件下，把竞争维度切换到系统级互联效率上。这个策略本身不新奇——历史上很多追赶者都做过类似选择。但华为的执行力度值得关注：从 CCU 硬件硬化到 SSU 直连，从 Load/Store 语义到 8192 卡单一计算域，这些不是概念性的方向声明，而是具体到硅片级别的工程投入。

最终决定胜负的，不是架构理念的对错，而是工程落地的完整度和时间窗口的宽度。2026-2027 年会是关键的验证期。

KADC 2026 系列分析 · 第 1 篇 · 2025.05.25