← 返回观点 思考

昇腾 950:华为 AI 芯片的第三条路

按架构师报告校准:B300 36PFLOPS dense FP8、新增 SLA-safe EP 粒度配置表、高利用率下 B300 全面更优、950DT 打平临界值 $1.1-1.3/NPU-hour。

2026-05-23思考55 分钟阅读

2026 年 5 月 | 基于华为《昇腾 950 NPU 架构白皮书》及公开信息的竞争力分析 本文不是白皮书搬运。白皮书规格数据作为论据嵌入分析,完整规格表见附录。


一、核心论点

昇腾 950 单卡 FP8 算力只有 NVIDIA B300 的 23%(FP4 只有 15%)。

这个数字看起来不值得讨论。但它的互联带宽反超 12%(2016 vs 1800 GB/s),超节点 Scale-Up 上限是 NVL72 的 114 倍(8192 vs 72 卡),集群最大规模超过 128K 卡

华为不是在追赶 B300。它在赌一件事:AI 模型的瓶颈正在从"单卡算力"转向"卡间通信"。MoE(混合专家)架构让每个 Token 只激活一小部分参数,跨专家的 All-to-All 通信成为训练和推理的真正瓶颈。华为赌的就是这个转折点。

如果赌对了——MoE 和稀疏化继续深化——系统级互联优势的价值会持续放大。如果赌错了——稠密模型回归或算法突破降低了通信需求——单卡算力的结构性差距将长期存在。

本文从五个维度展开论证:华为赌了什么(二章)、怎么实现(三/四章)、值不值(五章)、对手怎么打(六章)、迁移怎么做(七章)


二、两条路线:华为 vs NVIDIA

2.1 封装创新 vs 制程追赶

950 的核心架构决策是 Chiplet UMA:2 个 AI Die + 2 个 IO Die 合封,通过 D2D Clink 互联,对外呈现为单一地址空间。

芯片三代演进时间线
芯片三代演进时间线

这不是临时方案。华为在制程被限制的条件下,选择了一条和 NVIDIA 单 Die + HBM3e 截然不同的路线:

维度 华为路线 NVIDIA 路线
核心策略 封装创新弥补制程差距 制程领先 → 单 Die 极致性能
芯片架构 Chiplet: 2×AI Die + 2×IO Die 单 Die(Blackwell)
内存方案 自研 HiBL/HiZQ HBM3e(三星/SK海力士)
互联策略 开放协议 UB 2.0 + 全栈自研 NVLink 5.0(封闭)
扩展上限 8192 卡超节点 72 卡 NVL72

赌注的本质:封装和互联的进步速度,能否快到弥补制程代差?

封装侧进展可信——Chiplet UMA 的 Die 间延迟足够低,72 Lane HiLink SerDes × 112Gbps 提供 2016 GB/s 双向带宽。但风险同样明显:

  • Die 面积利用率:D2D 互联占用 Die 面积,这部分在单 Die 方案中可用于计算
  • 合封良率:4-Die 合封良率随 Die 数量指数增长
  • 功耗开销:Die 间通信有额外功耗,950 满配 ~600W(vs B300 ~1400W,但算力只有 23%)

判断:封装路线是当前制裁条件下的最优解,但是有天花板的选择。如果制程限制长期存在,华为需要在"天花板到来之前"通过互联和系统级创新建立足够深的护城河。

2.2 互联反超:MoE 时代的结构性转折

2016 GB/s vs 1800 GB/s——这是 950 规格表中最值得关注的数字。

为什么?因为 AI 模型的架构演化正在改变"什么才是瓶颈"。

MoE 之前(GPT-4 稠密模型时代):训练和推理的主要瓶颈是单卡矩阵乘法算力。NVIDIA 的单 Die 极致路线完美匹配这个需求。

MoE 之后(DeepSeek V4、盘古 Ultra MoE):每个 Token 只激活 3-5% 的参数,但需要跨所有专家做 All-to-All 通信。通信量随专家数和并行度急剧上升。在这个场景下:

  • UB On Chip Switch:IO Die 内 9 个 Port 可独立转发,不进入计算 Die,不占用 DRAM 带宽
  • CCU 硬化集合通信:AllReduce / AllGather / All-to-All 都有专用硬件加速,不占用 AI Core 算力
  • UB Memory Load/Store 语义:小规模通信可以直接用同步访存,对 MoE Token 路由特别有利——数据量小但延迟敏感

另一面:NVIDIA 不是没有应对。NVL72 把 72 卡做成一个 NVLink 域,GB300 NVL4 用 Grace CPU + 4 个 B300 组成共享内存节点。NVIDIA 的思路是"系统级也做创新,但不改变单 Die 优先的根本路线"。两者的区别是:华为的 Scale-Up 上限是 8192 卡,NVIDIA 是 72 卡——差了两个数量级。

判断:互联反超不是单点优势,是对 AI 模型演化方向的系统性押注。窗口期有限——NVIDIA 正在通过 NVL72 / NVL576 缩小差距。

2.3 自研 HBM:被逼出来的供应链方案

950 的另一个关键赌注是自研内存

版本 模块 单卡容量 单卡带宽 定位
950PR 8×HiBL 1.0 128 / 112 GB 1.6 / 1.4 TB/s 推理优先
950DT 4×HiZQ 2.0 144 / 96 GB 4 TB/s 训练+推理

对比 B300 的 288 GB HBM3e / 8 TB/s 带宽,950DT 带宽只有 50%,容量只有 50%

为什么 950PR 用 8 个模块而 950DT 只用 4 个? HiBL 是低成本方案,单模块带宽低,需要更多模块并行才能达到 1.6 TB/s。HiZQ 是高性能方案,4 个模块就能做到 4 TB/s。

判断:自研 HBM 是出口管制下的被迫选择。短期内是供应链安全方案,但带宽差距(4 vs 8 TB/s)会持续制约单卡性能。华为需要自研 HBM 的迭代速度跟得上 JEDEC 标准,否则差距越拉越大。

2.4 规格对比卡片

维度 Ascend 950DT NVIDIA B300 比值
FP8 算力 1034 TFLOPS 4500 TFLOPS 0.23×
FP4 算力 2007 TFLOPS 13,125 TFLOPS 0.15×
BF16 算力 547 TFLOPS 2250 TFLOPS 0.24×
HBM 容量 144 GB (HiZQ) 288 GB (HBM3e) 0.5×
内存带宽 4 TB/s 8 TB/s 0.5×
互联带宽 2016 GB/s 1800 GB/s 1.12×
L2 Cache 128 MB ~32 MB
功耗 ~600W ~1400W 0.43×
FP8/W ~1.72 TFLOPS/W ~3.21 TFLOPS/W 0.54×

完整规格表见附录 A。


三、950 架构及技术详细分析

本章深入拆解 950 的芯片架构。关注商业判断的读者可以跳过,直接进入第四章。

3.1 Chiplet UMA:2+2 合封的工程实现

950 的物理架构是 2×AI Die + 2×IO Die + Memory 模块,通过 D2D Clink 合封为统一地址空间。

昇腾 950 芯片架构总示意图 — 白皮书图 3-1
昇腾 950 芯片架构总示意图 — 白皮书图 3-1

来源:华为《昇腾 950 NPU 架构白皮书》图 3-1

两个 AI Die 各自承载一半的 AI 子系统,通过 IO Die 的 HiLink SerDes 对外通信。IO Die 同时承担 UB 协议处理、On Chip Switch 转发、PCIe 控制器等 IO 功能,不占用 AI Die 的计算资源

950PR 和 950DT 的差异仅在 Memory 模块:PR 配 8 个 HiBL 1.0(低成本、高容量),DT 配 4 个 HiZQ 2.0(高带宽)。

3.2 第三代 DaVinci:AI Core 架构

每个 AI 子系统包含 1 个 Cube Core + 2 个 Vector Core

AI Core 架构及 SRAM 示意图 — 白皮书图 4-1
AI Core 架构及 SRAM 示意图 — 白皮书图 4-1

来源:华为《昇腾 950 NPU 架构白皮书》图 4-1

3.2.1 Cube Core(张量计算)

Cube Core 处理架构示意图 — 白皮书图 4-2
Cube Core 处理架构示意图 — 白皮书图 4-2

来源:华为《昇腾 950 NPU 架构白皮书》图 4-2

新增精度格式:

格式 相对 BF16 算力 说明
MXFP4 算力跃升最大
HiF8 / MXFP8 / FP8 三种 8-bit 格式共享同一算力档位
INT8 整数张量计算
BF16 / FP16 1×(基准) 传统浮点
TF32 0.5× 兼容性格式
Cube Core 数值精度示意 — 白皮书图 4-3
Cube Core 数值精度示意 — 白皮书图 4-3

来源:华为《昇腾 950 NPU 架构白皮书》图 4-3

Cube Core 独有能力:

  • 随路量化:L0C Buffer → Unified Buffer 回写阶段,直接完成 FP32/INT32 → BF16/FP16/FP8/INT8 的量化 + 排布转换
  • 更大 L0C Buffer(256KB):支持 256×256 tile,提高数据复用率
  • 针对 GEMM / FlashAttention 等关键算子优化缓存复用

3.2.2 Vector Core(向量计算)

Vector Core 架构 — 白皮书图 4-5
Vector Core 架构 — 白皮书图 4-5

来源:华为《昇腾 950 NPU 架构白皮书》图 4-5

Vector Core 处理非矩阵运算:激活函数、归一化、类型转换、元素级运算。950DT 满配 Vector FP16/BF16 算力为 60 TFLOPS,与 Cube Core 的 486 TFLOPS (BF16) 之比约为 1:8

3.3 HiF8:自研锥形精度格式

华为自研的 HiF8 是 950 值得关注的技术选择:

  • 38 个阶码(vs FP8 E4M3 的 18 个),动态范围 [-22, 15],接近 FP16
  • 变长尾数:靠近 1 的数值精度高,远离 1 渐低——"锥形精度"
  • 不需要 MX 缩放因子:简化量化流程
HiF8 vs FP8 vs FP16 锥形精度对比
HiF8 vs FP8 vs FP16 锥形精度对比
HiF8 数值精度示意 — 白皮书图 4-4
HiF8 数值精度示意 — 白皮书图 4-4

来源:华为《昇腾 950 NPU 架构白皮书》图 4-4

设计上的优势:38 个阶码意味着 HiF8 的动态范围几乎是 FP8 E4M3 的两倍,不需要额外的缩放因子就能覆盖训练中的梯度分布。

生态上的风险:PyTorch、TensorFlow、vLLM 都不认识 HiF8。需要 CANN 编译器做格式转换。在没有第三方验证的情况下,客户更可能选择"已知可用"的 FP8/MXFP8,而不是"理论更好"的 HiF8。

3.4 SIMT 双模:降低 CUDA 迁移门槛

910C 时代的问题:纯 SIMD 架构。CUDA 的 SIMT 编程模型不能直接映射,大量 CUDA 自定义优化无法移植。

950 的变化:SIMD + SIMT 双执行模式。SIMD 处理结构化计算(GEMM、卷积),SIMT 支持线程级并行,CUDA 的线程组织模型(Thread / Warp / Block)可以更直接映射。

注意:SIMT 不是 CUDA 兼容层。它提供了更接近 CUDA 的执行模型,但编译器优化、算子库适配、调试工具都需要时间成熟。

3.5 CV 融合通路

AI Core Cube-Vector 融合示意 — 白皮书图 4-6
AI Core Cube-Vector 融合示意 — 白皮书图 4-6

来源:华为《昇腾 950 NPU 架构白皮书》图 4-6

Cube Core 和 Vector Core 之间的直连数据通路。FlashAttention 等 Cube-Vector 混合算子不需要中间 Buffer,减少一次数据搬移。对注意力机制的计算效率有直接提升。

3.6 NDDMA 与随路量化

NDDMA 指令示意 — 白皮书图 4-7
NDDMA 指令示意 — 白皮书图 4-7

来源:华为《昇腾 950 NPU 架构白皮书》图 4-7

  • NDDMA:硬件层面完成 reshape / transpose / 数据排布转换,替代 CUDA 中的独立 kernel
  • 随路量化:L0C → UB 回写时直接完成 FP32→FP8/INT8 量化,不需要额外 kernel
  • 两者结合,减少了 kernel launch 开销和数据搬移次数

3.7 内存层级

内存层次结构 — 白皮书图 4-9
内存层次结构 — 白皮书图 4-9

来源:华为《昇腾 950 NPU 架构白皮书》图 4-9

L0A / L0B (Cube 输入) → L0C (Cube 输出, 256KB) → UB (Unified Buffer)
  → L1 Cache → L2 Cache (128MB, 512B line + 128B Sector) → HBM (HiBL/HiZQ) → UB Memory (跨卡)

128B Sector-Cache 是针对 MoE 的关键设计:MoE 稀疏激活和 KV Cache 压缩场景下,带宽效率比 910C 的 512B 颗粒度提升 4 倍

3.8 同步机制与调度

新同步机制代码示例 — 白皮书图 4-8
新同步机制代码示例 — 白皮书图 4-8

来源:华为《昇腾 950 NPU 架构白皮书》图 4-8

  • BufferID 同步:替代传统的事件同步,开销更低
  • STARS2.0 硬件调度器:支持 2048 条任务流下沉到 Device,减少 CPU-GPU 同步开销

3.9 AI CPU 与 DVPP

  • Linx816 CPU:自研 ARMv8-A 双线程,950PR 8C16T / 950DT 8C16T
  • DVPP:4×VPC + 8×JPEGD + 4×JPEGE,支持 STARS 直接硬件调度

四、SuperPoD:华为系统工程的极致表达

4.1 互联详细设计:从 Die 到百万卡

华为的互联不是"加交换机连更多卡"。它是一套从 Die 内部延伸到机房级别的完整架构,白皮书花了两章详细描述——华为自己也认为这是 950 最核心的差异化。

五层互联架构

第一层:Die 内部

  • 2×AI Die + 2×IO Die 通过 D2D Clink 互联,统一地址空间
  • 72 Lane HiLink SerDes × 112Gbps = 18 个 x4 Port
  • UB On Chip Switch:IO Die 内 9 Port 独立转发,经 NoC 完成,不进入计算 Die,不占用 DRAM 带宽
  • 对外总双向带宽 2016 GB/s

第二层:节点内(2 CPU + 8 NPU)

  • 2 个 Host CPU + 8 个 NPU = 1 个 OS 节点(CPU 支持鲲鹏及 x86)
  • 计算板:每板出 7×x4 UB 端口,FullMesh 连接
  • 交换板:L2 Switch 配置,每板 4 或 8 端口

第三层:柜内 Scale-Up(64 NPU / 8 节点)

  • 8 节点(64 NPU + 16 CPU)= 1 个计算柜
  • 2D-FullMesh 铜缆直连 + UB Switch 芯片
  • 单柜功率密度 >120 kW,液冷

64 张 950DT 提供 66 PFLOPS FP8 算力——已超出 8×B300 的 36 PFLOPS。这是 950 最小的"完整作战单元"。

第四层:柜间 Scale-Up(8192 NPU)

  • 128 计算柜 + 32 互联柜 = 160 柜
  • 全光互联 + OCS(光路交换)
  • 总互联带宽 16.3 PB/s
  • 跨柜时延 2.1 μs

8192 卡的 Scale-Up 域是 NVL72 的 114 倍。在一个共享内存域内,8192 张卡可以直接 Load/Store 互相访问——不需要消息传递,不需要协议转换。

五层互联架构总览
五层互联架构总览

第五层:Scale-Out(>128K 卡)

  • 支持 UBoE 和 RoCE 两种协议
  • 基于 UB Switch 或 UBoE 搭载以太 Switch 组网扩展
  • 集群规模支持超过 128K 卡

带宽端到端分析

一个 Token 的数据从 Die A 的 AI Core 发到 Die B 的 AI Core,完整路径:

路径 带宽 延迟
AI Core → L2 片内总线 ~8 TB/s ~10 ns
L2 → HBM DDR-like 接口 4 TB/s ~100 ns
AI Die → IO Die D2D Clink ~1 TB/s ~20 ns
IO Die → IO Die(片内转发) UB On Chip Switch (NoC) 数 Tbps 级 ~50 ns
芯片 → 芯片(节点内) HiLink × 7 Port ~1.75 TB/s ~200 ns
节点 → 节点(柜内) UB Switch + 铜缆 ~数百 GB/s ~1 μs
柜 → 柜(光互联) OCS + 光纤 16.3 PB/s 总量 ~2.1 μs

关键发现:单跳通信时延从片内的 200ns 到跨柜的 2.1μs,只差一个数量级。这意味着在 8192 卡的 Scale-Up 域内,MoE 的 All-to-All 延迟是可控的——这是华为互联设计的核心价值。

超节点组网能力

白皮书 4.7 节确认了多种组网形态:

  1. 超大内存池:NPU 可通过 UB 端口直接访问 CPU 的超大内存池(高带宽低延迟)
  2. 超大存储资源池:NPU 通过 UB 端口直接访问存储资源池,不需要中间存储协议转换
  3. 以太互通:通过 UB Switch 提供 UB→Ethernet 转换;950 芯片可直接通过 UBoE 接入以太网
昇腾 950 超节点示意图 — 白皮书图 4-17
昇腾 950 超节点示意图 — 白皮书图 4-17

来源:华为《昇腾 950 NPU 架构白皮书》图 4-17

灵衢 UB 协议栈分层
灵衢 UB 协议栈分层

4.2 整机柜创新

互联架构决定"能连多少卡",SuperPoD 的竞争力不止于此。从芯片到机柜的工程创新决定了 8192 卡集群能否真正跑起来。

机柜架构:"计算柜 + 互联柜"分离

  • 128 计算柜 + 32 互联柜 = 160 柜,共 8192 张 950DT
  • 每计算柜:16 台 1U 服务器,64 张 NPU(8 节点 × 8 卡)
  • 互联柜:部署 UB Switch + OCS 光交换设备
  • 分离设计使计算柜可独立维护,互联柜按需扩展

散热:全液冷强制,无风冷选项

单柜 >120 kW,风冷压不住。华为的液冷方案:

  • 分布式独立冷板:每颗 NPU 单独冷板,精细化散热
  • 机柜式 CDU:集中分配冷却液,减少机柜空间占用
  • EPDM 材质液冷软管 + 浮动接头:缓解热膨胀和振动应力,"零漏液"
  • iCooling 智能温控:NPU 核心温度稳定在 45°C 以下,PUE 1.12
方案 散热方式 PUE 规模
Atlas 950 SuperPoD 冷板式全液冷 1.12 8192 卡
NVIDIA NVL72 全液冷 ~1.15 72 卡
超聚变 FusionPod 冷板 + 液冷背门 1.06 64 卡
中科曙光 ScaleX640 浸没相变液冷 640 卡

华为的 PUE 1.12 不是最低(超聚变 1.06),但 8192 卡规模的工程难度和 64 卡完全不同。

供电:HVDC + 预制化交付

  • 高压直流(HVDC)减少 AC-DC 转换损耗
  • 智能功耗管理:根据负载动态调整芯片频率和电压
  • 整机柜预制化交付:现场仅连接冷却管路和电源母线,部署周期缩短 80%+

可靠性:99.99% 可用性目标

万卡集群面临"木桶效应"——单卡故障导致全集群停摆不可接受:

  • 硬件层:片上 ECC + 巡检 + 行失效隔离;UB 链路层重传 + 端到端可靠重传
  • 系统层:故障预测、快速隔离、任务迁移,单点故障影响域约束在最小子集
  • 关键部件支持在线热插拔

内存:1152TB 统一内存池

  • 任意 NPU 可透明访问其他 NPU 的 HBM + CPU DDR(统一编址)
  • HBM → DDR → SSD 三级层次:热数据 HBM,温数据 DDR,冷数据 SSD
  • 总容量 1152TB(vs NVL72 的 30.5TB)——38 倍

4.3 全球超节点竞品定位

当前全球超节点方案分三个层级:

层级 方案 规模 定位 关键特征
超大规模 华为 Atlas SuperPoD A5 8192 卡 国家级智算中心 UB-Mesh + OCS + 可私有化
谷歌 TPU v7 Pod 9216 卡 云端 AI 基础设施 3D Torus + OCS + 仅云服务
大规模 阿里磐久 AL128 128 卡 云服务商 一云多芯,开放架构
中科曙光 ScaleX640 640 卡 HPC+AI 浸没相变液冷
百度天池 512 512 卡 大模型训练 自研 CDU
中型 NVIDIA NVL72 72 卡 企业级 单 Die 极致算力
AMD Helios 72 72 卡 开放替代 UALink 开放生态
腾讯 ETH-X 64 64 卡 开源方案 RoCEv2 开放协议

华为和谷歌是仅有的两个做到 8000+ 卡 Scale-Up 的方案。 但两者有根本区别:

  • 华为:支持私有化部署,开放灵衢协议,面向全球销售硬件
  • 谷歌:仅通过 Google Cloud 提供服务,不支持私有化,生态封闭(JAX/TensorFlow only)

华为的"开放 + 可私有化"定位在中国市场有独特优势——政府和大型国企的数据安全要求决定了不可能把训练数据放在 Google Cloud 上。

产品路线图:

产品路线图
产品路线图
产品 代号 芯片 卡数 机柜 上市
Atlas 900 A3 A3 910C 384 16 2025.3(已部署 300+)
Atlas 950 A5 950DT 8,192 160 2026 Q4
Atlas 960 A6 960 15,488 220 2027 Q4

五、客户视角:推理/训练的真实经济性

5.1 SIMT 对开发体验的改变

这是 950 对开发者最重要的变化。

910C 时代:纯 SIMD,CUDA 的 SIMT 编程模型不能直接映射。开发者要么用 AscendC 重写算子,要么等 CANN 官方库覆盖。

950 时代:SIMD + SIMT 双模。SIMT 模式支持线程级并行,CUDA 代码结构可以更直接映射。

迁移场景 910C(SIMD only) 950(SIMD + SIMT)
标准算子 CANN 直接覆盖 同左
自定义融合算子 必须用 AscendC 重写 SIMT 可移植 CUDA 代码结构
FlashAttention 类优化 需专门适配 CV 融合 + SIMT 降低适配难度
Warp-level 操作 无法映射 SIMT 支持线程级同步

CV 融合通路NDDMA 指令随路量化128B Sector-Cache 这些硬件特性进一步降低了软件适配成本。但要注意:SIMT 不是 CUDA 兼容层,它降低的是"移植门槛"而非"运行成本"。

5.2 推理测算:PDC 分离架构的完整推导

本章给出完整的推理测算。核心修正:30/100/400 tok/s 是单会话输出速度(不是集群吞吐),P/D 比例由上下文长度 L、平均输出长度 O、prefix cache 命中率 h 共同决定。校准锚点:CloudMatrix384 论文 [arXiv:2506.12708] + DeepSeek V3/R1 生产数据。

5.2.1 模型参数(V4 技术报告确认)

参数 符号 推导/来源
总参数 P_total 1.6T V4 技术报告
激活参数/token P_active 49B V4 技术报告
路由专家数 E 384 V4 技术报告
共享专家数 E_s 1 V4 技术报告
激活专家/token topK 6 V4 技术报告
Transformer 层数 L_layers 61 V4 技术报告
Hidden dim d 7,168 V4 技术报告
每路由专家参数 P_e 66M/层,4.03B 总计 3 × d × 3072 × L_layers
稠密参数 P_dense 24.5B P_total - E × P_e
KV Cache kv_per_tok 12.2 KB/token CSA 4× + HCA 128× 加权
上下文长度 L_max 1M tokens V4 技术报告

验证:384 × 4.03B + 24.5B = 1,568B ≈ 1.6T ✓;6 × 4.03B + 24.5B = 48.7B ≈ 49B ✓

每路由专家只有 66M 参数/层,稠密部分(注意力 + 共享专家)占每卡工作量的 99.7%。MoE 路由专家虽然多,但单个极小。

5.2.2 每.token 计算量:Attention 随上下文增长

推理中每个 token 的 FLOPs 不只是 2 × P_active——attention 计算量随上下文长度 L 增长:

F_decode(L) = 2 × P_active + 4 × d² × L / L_layers
            ≈ 0.098 + 0.202 × L_M    TFLOP/output token

F_prefill(L) = 2 × P_active + 2 × d² × L / L_layers
             ≈ 0.098 + 0.101 × L_M    TFLOP/input token

注:prefill 的 attention 从 0 到 L 累积,平均 attention 长度约为 decode 的一半,所以 attention 项取 decode 的一半。L_M = L/10⁶。

上下文 F_decode (TFLOP/token) F_prefill (TFLOP/token) Attention 占比
4K 0.099 0.098 <1%
32K 0.105 0.101 5-7%
128K 0.124 0.111 18-21%
256K 0.150 0.124 31-35%
1M 0.300 0.199 51-67%

1M 上下文时 attention 占 decode 计算量的 67%。这使得 prefill 的 FLOPs 随 L² 增长(prefill 处理整个序列),长上下文的 prefill 成本急剧上升。

5.2.3 硬件效率校准

η 不能用理论峰值。 从 DeepSeek V3/R1 生产系统校准:

DeepSeek 披露的 V3/R1 H800 系统:EP32 prefill + EP144 decode,24 小时平均 KV 长度 4989,平均输出速度 20-22 tok/s,单 8×H800 节点平均 decode 吞吐 ~14.8K output tok/s。

校准后的硬件参数:

参数 B300 950DT 说明
8卡节点 dense FP8 36 PFLOPS 8 PFLOPS B300: DGX B300 官方 FP8 72 PFLOPS sparse → dense 约一半 = 36;950DT: ~1 PFLOP × 8
η_prefill 0.45 0.45 生产系统校准
η_decode 0.14 0.12 decode 效率更低(batch 调度、MoE 路由开销、通信)
HBM 容量 288 GB 144 GB (可用 ~130GB)
HBM 带宽 8 TB/s 4 TB/s
$/GPU-hour $5.00 $2.00 规划假设,非市场报价

注:950DT $2/NPU-hour 是规划值。实际成本取决于华为内部折旧/电力/运维。如能压到 $1/NPU-hour,长上下文竞争力显著提升。

5.2.4 单节点吞吐

8 卡节点的有效吞吐:

S_P(L) = 8 × η_P × C_FP8 × 1000 / F_prefill(L)    (K input tok/s)
S_D(L) = 8 × η_D × C_FP8 × 1000 / F_decode(L)      (K output tok/s)
上下文 B300 P (K tok/s) B300 D (K tok/s) 950DT P (K tok/s) 950DT D (K tok/s)
4K 164.6 51.0 36.6 9.7
32K 159.9 48.2 35.5 9.2
128K 145.6 40.5 32.4 7.7
256K 130.1 33.4 28.9 6.4
1M 79.4 16.3 17.7 3.1

B300 的 prefill 吞吐是 950DT 的 ~4.5×,decode 吞吐约 ~5.2×。1M 时吞吐普遍下降——attention 计算量暴涨。

5.2.5 P/D 配比:单会话速度下的正确推导

问题:单会话输出速度为 r(tok/s),同时 C 个活跃会话,平均输出 O 个 token,上下文长度 L,prefix cache 命中率 h。

D 端总吞吐 = C × r                       ← 每个会话每秒生成 r 个 token
P 端总吞吐 = C × r × L/O × (1-h)         ← 每完成一个会话需处理 L 个 input token

P/D 节点比:

N_P / N_D = [C×r×L(1-h)/O] / S_P(L)  ÷  [C×r] / S_D(L)
          = (L/O) × (1-h) × S_D(L) / S_P(L)

关键洞察:r(单会话速度)同时放大 P 和 D 的需求,但不改变 P/D 比例。真正决定 P/D 比的是:

  • L/O:上下文越长、输出越短 → P 端越重
  • h:cache 命中率越高 → P 端越轻
  • S_D/S_P:decode 相对 prefill 的吞吐比

P/D 比例表(O=512, h=0):

上下文 B300 P:D 950DT P:D 说明
4K 2.3 : 1 2.1 : 1 P 和 D 接近
32K 17 : 1 16 : 1 P 开始膨胀
128K 65 : 1 57 : 1 P 远超 D
256K 119 : 1 105 : 1
1M 382 : 1 327 : 1 P 完全主导

没有 cache 的 1M 服务:每生成 512 个 output token 要处理 100 万个 input token——P 端需要 359 个节点来喂 1 个 D 节点。这不是 950DT 的问题,是所有 1M 服务的共同挑战。

有 prefix cache(h=0.56)时:

上下文 B300 P:D 950DT P:D
4K 1.0 : 1 0.9 : 1
32K 8.3 : 1 7.1 : 1
128K 31 : 1 27 : 1
256K 57 : 1 50 : 1
1M 177 : 1 152 : 1

Cache 使 P:D 降了一半,但 1M 仍然是 158:1。

平均输出长度对 P/D 的影响(h=0.56):

O 1M P:D (950DT) 说明
512 158 : 1 短输出,P 爆炸
2048 40 : 1 中等输出,P 仍重
4096 20 : 1 长输出,P 可控

结论:1M 服务必须在 cache 命中率高(>80%)+ 输出较长(>2048 token)的条件下才经济。短输出 + 长上下文 + 冷 cache 是最差的组合。

5.2.6 KV Cache 容量

KV/sequence ≈ 5.3 × L_M  GB
上下文 KV/sequence 950DT 并发 (130GB) B300 并发 (260GB)
4K 0.021 GB 6,190 12,381
32K 0.170 GB 765 1,529
128K 0.678 GB 192 383
256K 1.357 GB 96 192
1M 5.300 GB 25 49

注:这是 compressed CSA/HCA KV。如全量缓存 SWA(滑动窗口),体积约 8× 放大,并发容量相应降低。

C 层(Cache)的传输带宽需求:

B_C = (C × r / O) × KV(L)
场景 C=100, r=100, O=512, L=1M C 层 KV 流量
压缩 KV 5.3 GB/seq 103 GB/s
全量 SWA ~42 GB/seq ~824 GB/s

1M 场景下 C 层带宽压力巨大。这是为什么 V4 技术报告区分了 full/periodic/zero SWA caching 策略。

5.2.7 TTFT:冷 prefill 延迟

单 8 卡 P 节点,冷 prefill,无排队:

上下文 B300 TTFT 950DT TTFT
4K 22 ms 112 ms
32K 184 ms 922 ms
128K 810 ms 4.05 s
256K 1.81 s 9.06 s
1M 11.9 s 59.4 s

要达到冷前缀 TTFT ≤ 1s 需要多少 P 节点:

上下文 B300 P 节点 950DT P 节点
4K 1 1
32K 1 1
128K 1 5
256K 2 10
1M 12 60

950DT 不适合独立承担长上下文 prefill。华为官方把 950PR 定位为 prefill、950DT 定位为 decode/训练,正是这个原因。推荐 PDC 架构是 950PR-P + 950DT-D + Cache 层。

如果只能用 950DT 做 P,需要 supernode 级 context parallel 才能压下 128K+ 的 TTFT。

5.2.8 校准锚点:CloudMatrix384

华为论文实测数据是吞吐校准的独立验证:

维度 CM384 实测
硬件 384×910C (310T, 1.2 TB/s BW, 64GB HBM)
模型 DeepSeek-R1 671B (256专家, topK=8, MLA)
Decode 1,943 tok/s/NPU → 总计 621,760 tok/s
Prefill 6,688 tok/s/NPU
架构 EP320, PDC 分离

CM384 的 decode 吞吐 1,943 tok/s/NPU 对应 η_decode ≈ 0.12(与我们的校准值一致),验证了效率假设的合理性。

5.2.9 PDC 部署三要素

① P/D 配比 = (L/O) × (1-h) × S_D/S_P

不再是简单的"吞吐匹配"。P/D 比例由业务参数(L, O, h)和硬件能力(S_D/S_P)共同决定。

② GPU 卡数分配

D 端节点数(60% 利用率留 p90 余量):

N_D = ⌈C × r / (0.6 × S_D(L))⌉

P 端节点数:

N_P = ⌈C × r × L × (1-h) / (O × S_P(L))⌉

③ 并行策略

Prefill Decode
主策略 TP(计算瓶颈) EP + TP(带宽瓶颈)
EP 可用(大 batch 下 EP 减少 AllReduce) 拆分路由专家 → 释放 KV 空间
TP 拆分算力 → 线性提速 拆分稠密权重 → 降低 TPOT
PP 不用 不用
推荐 B300: EP64/96; 950DT: EP64/128 30t: EP128-192; 100t: EP192+MTP; 400t: EP384+MTP

EP 建议与 DeepSeek 生产实践:DeepSeek V3/R1 线上用 EP32 prefill + EP144 decode + 32 redundant experts。对 V4-Pro 384 专家,等比例放大建议 decode EP192-384 + 48 redundant experts。

5.3 完整配置表:单会话速度 + 并发

默认业务负载:C=100 活跃会话, O=512 output tokens, h=0.56, D 端 60% 利用率

百万 output token 成本:

$/M_out = 8(N_P + N_D) × c_GPU / (C × r × 3600/10⁶)

5.3.1 B300 容量下界($/GPU-hour = $5)

ctx 30 tok/s 100 tok/s 400 tok/s
4K P1/D1, 16 GPU, $7.4/M P1/D1, 16 GPU, $2.2/M P1/D2, 24 GPU, $0.8/M
32K P1/D1, 16 GPU, $7.4/M P2/D1, 24 GPU, $3.3/M P7/D2, 72 GPU, $2.5/M
128K P3/D1, 32 GPU, $14.8/M P8/D1, 72 GPU, $10.0/M P31/D2, 264 GPU, $9.2/M
256K P6/D1, 56 GPU, $25.9/M P17/D1, 144 GPU, $20.0/M P68/D2, 560 GPU, $19.4/M
1M P32/D1, 264 GPU, $122.2/M P106/D1, 856 GPU, $118.9/M P423/D4, 3416 GPU, $118.6/M

B300 1M 特征:成本几乎不随速度档变化(30/100/400 的 $/M 差距 <3%),因为成本由 P 端主导。

5.3.2 B300 SLA-safe 生产配置

容量下界是数学最小值,生产中为满足 TPOT p90 < 50ms 需要 EP 最小粒度约束:

  • P 层:最小 EP64(= 8 个 8卡节点 = 64 GPU)
  • D 层 30 tok/s:EP128(= 16 节点)
  • D 层 100 tok/s:EP192(= 24 节点)
  • D 层 400 tok/s:EP384(= 48 节点)
ctx 30 tok/s 100 tok/s 400 tok/s
4K P8/D16, 192 GPU, $88.9/M P8/D24, 256 GPU, $35.6/M P8/D48, 448 GPU, $15.6/M
32K P8/D16, 192 GPU, $88.9/M P8/D24, 256 GPU, $35.6/M P8/D48, 448 GPU, $15.6/M
128K P8/D16, 192 GPU, $88.9/M P8/D24, 256 GPU, $35.6/M P32/D48, 640 GPU, $22.2/M
256K P8/D16, 192 GPU, $88.9/M P24/D24, 384 GPU, $53.3/M P72/D48, 960 GPU, $33.3/M
1M P32/D16, 384 GPU, $177.8/M P112/D24, 1088 GPU, $151.1/M P424/D48, 3776 GPU, $131.1/M

注:SLA-safe 配置向上取整到 EP 粒度。短上下文时 P 端有较多余量(EP64 最小约束),但确保 TPOT p90。长上下文时 P 端主导成本,与容量下界接近。

5.3.3 950DT 容量下界($/NPU-hour = $2)

ctx 30 tok/s 100 tok/s 400 tok/s
4K P1/D1, 16 NPU, $3.0/M P1/D2, 24 NPU, $1.3/M P4/D7, 88 NPU, $1.2/M
32K P3/D1, 32 NPU, $5.9/M P8/D2, 80 NPU, $4.4/M P31/D8, 312 NPU, $4.3/M
128K P11/D1, 96 NPU, $17.8/M P34/D3, 296 NPU, $16.4/M P136/D9, 1160 NPU, $16.1/M
256K P23/D1, 192 NPU, $35.6/M P76/D3, 632 NPU, $35.1/M P303/D11, 2512 NPU, $34.9/M
1M P143/D2, 1160 NPU, $214.8/M P476/D6, 3856 NPU, $214.2/M P1901/D21, 15376 NPU, $213.6/M

5.3.4 950DT SLA-safe 生产配置(Supernode)

  • P 层:最小 EP128(= 16 个 8-NPU 节点)
  • D 层 30 tok/s:EP192(= 24 节点)
  • D 层 100/400 tok/s:EP384(= 48 节点)
ctx 30 tok/s 100 tok/s 400 tok/s
4K P16/D24, 320 NPU, $59.3/M P16/D48, 512 NPU, $28.4/M P16/D48, 512 NPU, $7.1/M
32K P16/D24, 320 NPU, $59.3/M P16/D48, 512 NPU, $28.4/M P32/D48, 640 NPU, $8.9/M
128K P16/D24, 320 NPU, $59.3/M P32/D48, 640 NPU, $23.7/M P128/D48, 1408 NPU, $15.6/M
256K P32/D24, 448 NPU, $82.9/M P96/D48, 1152 NPU, $42.5/M P384/D48, 3456 NPU, $30.2/M
1M P160/D24, 1472 NPU, $272.7/M P480/D48, 4224 NPU, $234.7/M P1920/D48, 15744 NPU, $173.7/M

注:950DT SLA-safe 配置需要更大 EP 度。Supernode 的价值在此体现:EP384 D unit 内 UB 全互联,延迟可控。

5.3.5 成本对比

容量下界 vs SLA-safe 的区别:容量下界是数学最小值,适用于 sizing 理解;SLA-safe 是生产配置,向上取整到 EP 粒度确保 TPOT。

高利用率吞吐匹配下(架构师校准),B300 在所有上下文都是成本最低

ctx 速度 B300 $/M 950DT $/M B300 优胜
4K 100 $35.6 $28.4 950DT 便宜 20%
32K 100 $35.6 $28.4 950DT 便宜 20%
128K 100 $35.6 $23.7 950DT 便宜 33%
256K 100 $53.3 $42.5 950DT 便宜 20%
1M 100 $151.1 $234.7 B300 便宜 36%

注:SLA-safe 配置下,4K-256K 因 EP 粒度约束固定了 P/D 节点数,950DT NPU-hour 单价优势 ($2 vs $5) 使其短上下文更便宜。但 1M 时 P 端需求暴增,B300 算力优势摊薄固定成本。

950DT 在 1M 打平 B300 的条件

$5 × 1088/4224 ≈ $1.3/NPU-hour (SLA-safe)
$5 × 856/3856 ≈ $1.1/NPU-hour (容量下界)

950DT 全栈成本需压到 $1.1-1.3/NPU-hour 以下,1M 推理才能与 B300 竞争。

5.3.4 输出长度对成本的影响

以 1M 上下文、100 tok/s、B300 为例:

O h P:D P 节点 总 GPU $/M
512 0.56 185:1 103 832 $115.6
2048 0.56 46:1 26 216 $30.0
4096 0.56 23:1 13 120 $16.7
512 0.90 37:1 21 176 $24.4
4096 0.90 5:1 3 32 $4.4

长输出 + 高 cache 命中 = 成本降 26 倍($115 → $4.4 /M)。1M 服务的经济性高度依赖业务场景。

5.4 华为推荐 PDC 架构

5.4.1 为什么不能用纯 950DT 做 P+D

950DT 的 prefill 效率是 B300 的 1/5(FP8 算力 1 PFLOPS vs 5 PFLOPS)。1M 冷前缀 TTFT = 59.4 秒(vs B300 11.9 秒)。要压到 ≤1 秒需要 60 个 8-NPU 节点做 P。

华为自己也把 950PR 定位为 prefill,950DT 定位为 decode/训练。正确架构是异构 PDC。

5.4.2 推荐:950PR-P + 950DT-D + Cache

P 层:950PR supernode slice  →  长上下文 prefill, chunked prefill, context parallel
D 层:950DT EP384             →  decode, large EP, MTP/speculative decoding
C 层:Kunpeng + NVMe + NPU memory pool + UB/RDMA  →  compressed KV, prefix cache, routing affinity

CloudMatrix384 已经验证了 prefill/decode/cache 解耦 + UB all-to-all + 超大 EP 的思路。对 V4-Pro 384 路由专家,EP384 是 decode 的天然切分点:理想情况下一颗 NPU 管一个路由专家。

5.4.3 Supernode 下的 P/D 比例限制

即使有 supernode,P/D 的数学关系不会消失。以 950DT, O=512, h=0.56:

上下文 P:D D 端 1 个 EP384 unit 需要的 P 节点
32K 7.1 : 1 7 个 8-NPU 节点
128K 27 : 1 27 个 8-NPU 节点
256K 50 : 1 50 个 8-NPU 节点
1M 152 : 1 7,296 个 8-NPU 节点(不现实)

1M、短输出、半冷前缀下,把 EP384 D unit 完全喂满需要 ~7600 个 P 节点——不可能。

正确做法:

  1. 1M 场景不追求 D 满载,优先 TTFT 和 SLA
  2. 提高 cache 命中率(h=0.90 时 P:D 降到 ~18:1)
  3. 将长输出业务与 1M 上下文绑定(O=4096 时 P:D 降到 ~20:1)
  4. P 层用 950PR(prefill 专用),不用 950DT
  5. C 层做强 cache affinity,避免重复 prefill

如果 O=4096 且 h=0.90:950DT 1M 的 P:D ≈ 4.5 : 1——这才是 supernode 上健康的 1M 服务状态。

5.5 训练场景

950PR 定位推理,训练需等 2026 Q4 的 950DT。

训练内存需求(V4-Pro 1.6T FP8):

  • 权重 + 梯度 + 优化器 ≈ 4.8 TB
  • 最低 37 张卡装下
  • 训练通信更密集(All-to-All + AllReduce 交替),需更多并行度
  • 512-1024 卡(8-16 柜)是训练甜点:UB 全光互联 + CCU 硬化 + 足够的 pipeline 并行度

V4 技术报告确认 V4-Pro 用 32T+ tokens 预训练,Muon 优化器。华为内部已用 6000+ 卡 950DT 训练盘古 Ultra MoE 718B,但未经外部客户验证。

5.6 客户分层

客户类型 是否适合 950 原因
供应链安全需求(政府/国企) ✅ 适合 不受出口管制,数据不出境
短上下文推理(≤4K) ✅ 适合 NPU-hour 成本低,SLA-safe 下 EP 粒度使 950DT 有优势
长上下文 MoE 推理(128K+) ⚠️ 需 950PR-P 纯 950DT 做 P 成本过高,需异构 PDC
大规模 MoE 训练 ⚠️ 等 950DT 512+ 卡区间优势最大,但需等 2026 Q4
成本敏感推理服务 ⚠️ 有条件 仅限短上下文 + 长 output 场景
单卡延迟敏感推理 ❌ 不适合 FP8 算力只有 B300 的 23%
小规模部署(<64 卡) ❌ 不适合 系统级优势需要 64+ 卡才能发挥
1M 上下文推理(短输出) ❌ 不经济 P:D >158:1,P 端成本爆炸

六、薄弱点:对手会怎么打

6.1 单卡算力差距是结构性现实

FP8 算力只有 B300 的 23%。这不是"优化一下就能追上"的差距,是制程和架构路线决定的。

Prefill 端的差距最为致命。 950DT 单 8-NPU 节点 prefill 吞吐只有 B300 的 1/4.5。128K 上下文冷 prefill 需 4 秒(vs B300 0.9 秒),1M 需 55 秒(vs B300 12 秒)。在 P/D 比例公式中,S_P 越低 → N_P 越大 → 总成本越高。SLA-safe 配置下,1M 场景 B300 成本比 950DT 低 36%。

NVIDIA 会怎么说:"你的 decode 吞吐和我相当(都是 HBM 带宽瓶颈),但 prefill 慢 4.5 倍。实际服务中 prefill 开销不能忽略——尤其 128K+ 上下文,你的 P 端节点数是我的 5 倍。用户等 55 秒 prefill 1M token,体验远不如 B300 的 12 秒。软件生态、运维成熟度、社区支持都是额外成本。"

6.2 HiF8:设计精巧但生态孤立

  • 没有框架原生支持(PyTorch/TensorFlow/vLLM 都不认识)
  • 没有量化工具链
  • 训练精度未经第三方验证
  • 客户会选择"已知可用"的 FP8/MXFP8

NVIDIA 会怎么说:"FP8 是行业标准。HiF8 是华为自己的格式,你想锁死在他的生态里吗?"

6.3 软件生态的真实差距

这不是"差多少"的问题,是"差多少年"的问题。

维度 CUDA CANN 差距本质
自定义算子 20 年积累 SIMT 刚起步
算子库覆盖 全面 主流已覆盖
性能调优 Nsight 完整 msprof 完善中
社区 全球百万级 中国为主
调试 cuda-gdb 成熟 改善中

CUDA 20 年积累的隐性知识(StackOverflow 上的每一个回答、每一个踩坑经验)不可能在 2-3 年内追平。

6.4 未验证的不确定性

风险项 状态 影响
HiF8 实际训练精度 未验证 如验证失败,自研精度格式价值归零
自研 HBM 量产能力 未验证 决定交付节奏
超节点 8192 卡线性加速比 仅华为内部数据 外部客户验证前不能确信
950DT 上市时间 2026 Q4 NVIDIA 下一代可能也快了
950DT 96GB 低配版定位 可能导致客户混乱 训练卡显存比推理卡少
950DT $/NPU-hour 能否压到 $1 未验证 决定 32K+ 场景能否与 B300 竞争

七、迁移地图:哪些要重写

7.1 三层迁移难度

第一层:直接跑(0-1 天)

  • API 调用 → 无感知
  • PyTorch 标准推理 → device="npu" + torch_npu
  • vLLM/HuggingFace 标准 → vLLM-Ascend

第二层:需要适配(1-2 周)

场景 950 的缓解
自定义融合算子 SIMT 降低移植门槛
FlashAttention 类优化 CV 融合通路加速
MoE All-to-All CCU 硬化 + HCCL
数据排布转换 NDDMA 硬件完成
KV Cache 量化 随路量化硬件完成

第三层:需要重写(2-4 周+)

场景 难度
Warp-level primitives 高 — SIMT 不完全覆盖
三级异构注意力(V4) 中高 — 需要 CANN 专门适配
自定义通信 kernel 高 — HCCL vs NCCL 差异
训练框架全量迁移 很高(1-3 月)

7.2 V4-Pro 迁移走一遍真实路径

  1. KV Cache 管理:三级压缩需要统一内存管理。950 的 128B Sector-Cache 带宽效率提升 4×,但需重写 Cache 管理逻辑。→ 1-2 周

  2. 注意力算子重写:Compressor → RMSNorm → RoPE → Cache Insert 融合链,需 CV 融合 + SIMT 重写。→ 1-2 周

  3. MoE All-to-All:HCCL 替代 NCCL,CCU 硬化加速。V4 动态路由需额外调优。→ 1 周

  4. FP4 兼容:V4 使用 FP4 量化感知训练(QAT)+ FP4 索引器。950 支持 MXFP4(OCP 标准格式),如 V4 用 NVIDIA FP4 E2M1 则需格式转换。→ 1-3 天

  5. 部署规模:V4-Pro 384 专家 → EP=384 是甜点(384 张 950DT,每卡 1 专家)。8×B300 的 EP=8 只有 6.8K tok/s,远低于 384×950DT 的 74.6K tok/s。→ 部署规模完全不同

总迁移时间:4-6 周(不含训练)

7.3 迁移总结

┌─────────────────────────────────────────────────────┐
│               CUDA → 昇腾 950 迁移地图               │
├───────────────┬─────────────┬───────────────────────┤
│   直接跑       │   需要适配   │   需要重写             │
│   (0-1 天)    │   (1-2 周)  │   (2-4 周+)           │
├───────────────┼─────────────┼───────────────────────┤
│ · API 调用    │ · 融合算子   │ · Warp-level 操作     │
│ · PyTorch    │ · FlashAttn │ · 三级异构注意力       │
│ · vLLM 标准  │ · MoE A2A   │ · 自定义通信 kernel   │
│               │ · 数据排布   │ · 训练框架全量迁移     │
│               │ · KV Cache  │ · FP4 格式转换(待确认) │
└───────────────┴─────────────┴───────────────────────┘

关键判断:标准推理迁移门槛已很低。MoE 推理需 4-6 周适配。训练迁移需 1-3 个月,建议等 950DT 上市后由华为 FAE 配合。


八、判断汇总

8.1 确定性最高的判断

  1. Chiplet UMA 是制裁条件下的最优解,但有天花板。 如果制程限制长期存在,封装路线的性能上限最终会被单 Die 方案拉开。

  2. 互联反超是真实的系统性优势。 2016 GB/s + UB On Chip Switch + CCU + 8192 卡超节点,是一整套系统级通信设计。MoE 场景下价值最大。

  3. SIMT 是降低 CUDA 迁移门槛的关键一步。 但 SIMT 不是 CUDA 兼容层,降低的是“移植门槛”而非“运行成本”。

  4. 950DT 在 SLA-safe 配置下,4K-256K 因 EP 粒度固定有成本优势(NPU-hour 单价低,$2 vs $5)。但 1M 时 P 端需求暴增,B300 算力优势使其成本反而低 36%。高利用率吞吐匹配下 B300 全面更优。

  5. 长上下文 (128K+) P 端成本是核心瓶颈——这对所有硬件都成立。 1M 上下文 P:D >152:1(h=0.56),成本由 P 端主导。Cache 命中率 + 输出长度是长上下文服务经济性的关键变量,不是 decode 速度。

  6. 推荐华为 PDC 架构为 950PR-P + 950DT-D + Cache 层。 纯 950DT 做 P+D 在 32K+ 场景不经济,因为 950DT prefill 效率只有 B300 的 1/5。

8.2 最大的不确定性

  1. 950DT $/NPU-hour。 决定 32K+ 场景能否与 B300 竞争的临界值是 $1/NPU-hour。高于此值,1M 推理成本约为 B300 的 2 倍。

  2. HiF8 实际训练精度。 设计优于 FP8 E4M3,但无第三方验证。

  3. 自研 HBM 量产能力。 HiBL/HiZQ 良率直接决定交付。

  4. 超节点 8192 卡实际训练效率。 华为内部数据好看,但外部客户的模型、数据、调度策略都不同。

  5. 950DT 上市时间与 NPU-hour 成本。 2026 Q4 上市,实际 $/NPU-hour 是否能压到 $1 以下,决定长上下文场景的竞争力。

8.3 观察时间线

时间 关键事件 验证什么
2026 Q1 950PR 量产 + Atlas 350 上市 ✅ 已完成
2026 Q2-Q3 外部客户 950PR 推理部署 推理迁移真实成本
2026 Q4 950DT 量产 + Atlas 950 SuperPoD 训练能力、HBM 产能、超节点效率
2027 H1 外部客户大规模训练案例 HCCL 在 MoE 训练中的实际表现
2027 Q4 Atlas 960 / Ascend 970 封装路线的代际进步速度

附录 A:完整规格表

规格项 昇腾 950PR 昇腾 950DT
芯片物理架构 2×AI Die + 2×IO Die + 8×Memory 模块 2×AI Die + 2×IO Die + 4×Memory 模块
AI 子系统 32/28 36/32/28
 Cube Core 数量 32/28 36/32/28
 Vector Core 数量 64/56 72/64/56
Cube+Vector 总算力
 MXFP4 (TFLOPS) 1784 / 1561 2007 / 1784 / 1561
 HiF8/MXFP8/FP8 (TFLOPS) 919 / 804 1034 / 919 / 804
 INT8 (TOPS) 919 / 804 1034 / 919 / 804
 BF16/FP16 (TFLOPS) 486 / 425 547 / 486 / 425
 TF32 (TFLOPS) 243 / 212 273 / 243 / 212
Cube 独立算力
 MXFP4 (TFLOPS) 1730 / 1513 1946 / 1730 / 1513
 HiF8/MXFP8/FP8 (TFLOPS) 865 / 756 973 / 865 / 756
 BF16/FP16 (TFLOPS) 432 / 378 486 / 432 / 378
Vector 独立算力
 FP16/BF16 (TFLOPS) 54 / 47 60 / 54 / 47
 FP32 (TFLOPS) 27 / 23 30 / 27 / 23
 INT8 (TOPS) 54 / 47 60 / 54 / 47
Memory
 容量 (GB) 128 / 112 144 / 96
 带宽 (TB/s) 1.6 / 1.4 4
AI CPU Linx816 8C16T / 6C12T / 4C8T Linx816 8C16T / 6C12T
DVPP VPC 4/2 Core; JPEGD 8 Core; JPEGE 4/2 Core VPC 4/2 Core; JPEGD 8 Core; JPEGE 4/2 Core
L2 Cache 128 / 112 MB 128 MB
IO 规格
 UB 带宽 18 Port × 112Gbps,2016 GB/s 双向 同 950PR
 UBoE 2×400Gbps 同 950PR
 PCIe PCIe 5.0 x16,128GB/s 双向 同 950PR

数据来源:华为《昇腾 950 NPU 架构白皮书》表 3-1

附录 B:芯片架构关键图

B.1 芯片物理架构

昇腾 950 芯片架构总示意图 — 白皮书图 3-1
昇腾 950 芯片架构总示意图 — 白皮书图 3-1

B.2 AI Core 架构

AI Core 架构及 SRAM — 白皮书图 4-1
AI Core 架构及 SRAM — 白皮书图 4-1

B.3 Cube Core

Cube Core 处理架构 — 白皮书图 4-2
Cube Core 处理架构 — 白皮书图 4-2
Cube Core 精度格式 — 白皮书图 4-3
Cube Core 精度格式 — 白皮书图 4-3

B.4 Vector Core

Vector Core 架构 — 白皮书图 4-5
Vector Core 架构 — 白皮书图 4-5

B.5 HiF8 数值精度

HiF8 数值精度 — 白皮书图 4-4
HiF8 数值精度 — 白皮书图 4-4

B.6 CV 融合

CV 融合示意 — 白皮书图 4-6
CV 融合示意 — 白皮书图 4-6

B.7 NDDMA 与同步

NDDMA 指令 — 白皮书图 4-7
NDDMA 指令 — 白皮书图 4-7
同步机制 — 白皮书图 4-8
同步机制 — 白皮书图 4-8

B.8 内存层次

内存层次结构 — 白皮书图 4-9
内存层次结构 — 白皮书图 4-9

附录 C:信息来源

主要来源:

  • 华为《昇腾 950 NPU 架构白皮书》(2026) — 全部精确规格的第一来源
  • 华为 HC 2025 徐直军 / 杨超斌主题演讲
  • 华为 CloudMatrix384 论文 [arXiv:2506.12708](2025-06)— CloudMatrix384 超节点 + DeepSeek-R1 实测性能数据

补充来源:

  • 昇腾 CANN 官方公众号《CANN NEXT 系列干货:面向 Ascend 950 的架构详解》(2026)
  • 共熵产业与标准创新服务中心 (comentropy.org) 超节点算力革命系列
  • 华源证券研报《关注 26 年起国产超节点液冷新增量》(2026-04)
  • 华金证券研报 2026-04-13
  • 华西证券研报 2025-09-22
  • 观察者网 2026-02-10 采访张爱军
  • vLLM 官方博客 DeepSeek V4 架构文档

本文分析基于华为《昇腾 950 NPU 架构白皮书》及公开信息。白皮书架构参数为官方确认数据。性能 TPS 数据来自 HC 2025 演讲,未经第三方独立验证。灵衢 2.0 大规模部署(8192 卡)的实际可靠性尚需 2026 Q4 上市后验证。成本估算基于公开定价信息和行业经验值,实际成本因部署规模、利用率、运维模式等因素会有显著差异。