← 返回观点 思考

灵晟补遗:Next Platform 深度拆解确认的新细节

**资料来源:**

2026-06-26思考28 分钟阅读

这篇文章是《灵晟超算登顶 TOP500》的补充修正。 2026 年 6 月 25 日,The Next Platform 联合创始人 Timothy Prickett Morgan 发表了灵晟系统的深度拆解文章,引用了 NSC 深圳在 HACI 2026 上的演讲幻灯片(由系统主架构师卢宇彤主讲)和一篇 NSC 深圳 4 月发表的 AI 论文中的技术参数。结合这些新资料,对原文做以下确认和修正。


一、架构确认与修正

1.1 LX2 设计方:NSC 深圳 + 华为海思

原文未明确 LX2 的设计方。TNP 确认:LX2 由 NSC 深圳与华为(推测为海思半导体部门)联合设计。 SVE2 单元是从 ARM Neoverse IP block copy 而来,SME 矩阵单元则是华为的定制实现。

1.2 工艺节点:SMIC 7nm N+3

原文推算 SMIC 7nm,TNP 进一步确认为 SMIC 7nm N+3 改良版工艺。TNP 的推理链:1.55 GHz 远低于 SMIC 7nm 可以达到的 3 GHz——降频是为了在核心速度和内存速度之间取得平衡,同时压低功耗曲线。690W TDP 已经偏高,再不降频就更难散热。

这个推理与我们原文的 chiplet 面积推算互补——不是因为做不大,而是为了能效甜点主动降频,靠规模弥补单核性能。

1.3 Chiplet 结构与良率

幻灯片确认了 2 chiplet 的 chiplet 设计。更关键的是 TNP 从 die shot 推算出了 die 上的原始核心数:

  • 每 chiplet 有 48 个核心块,每块含 4 个核 → 每 chiplet 192 个原始核
  • 每 socket 384 个原始核,实际暴露 304 个核 → 良率 79.2%
  • 这与 TNP 说的"SMIC 7nm 预期良率范围一致"

这个发现比我们原文的纯面积推算更精确——我们当时推断了 chiplet 方案,但没有原始核心数和良率的具体数字。

1.4 CPU 数量修正

原文说"47,000 颗 CPU",需要修正。 实际有两个数字:

  • NSC 深圳论文中描述的配置:20,480 节点 × 2 socket = 40,960 颗 LX2
  • HPL 跑分时使用的配置额外增加了 2,200 节点:22,680 节点 × 2 socket = 45,360 颗 LX2,13,789,440 核

HPL 跑分用的是更大的配置(比论文配置多了约 10% 的节点),这与 TNP 说的"中国可以随时继续扩展"一致。


二、内存系统修正

2.1 HBM 容量:64 GB per socket,不是 32 GB

这是最重要的修正。 原文说"每 CPU 集成 32 GB HBM(4 TB/s)",这个数字来自 NSC 深圳论文中对"每芯片"的描述。TNP 指出论文表述有歧义——实际是每 chiplet 32 GB + 4 TB/s,每 socket 合计 64 GB + 8 TB/s。

幻灯片上的 "HBM 4 TB/s" 对应的是单 chiplet 数据。每 chiplet 的 4 个 24 核 block 各分配一个 HBM stack。

TNP 推测这是 HBM2E 的略微增强版本

2.2 DRAM:3D 堆叠 LPDDR5X,不是普通 DDR5

原文只说"DDR5"。TNP 提供了更精确的信息:

  • 256 GB LPDDR5X per socket(不是 DDR5),推测来自长鑫存储(CXMT)2025 年底展示的 10.7 GHz LPDDR5X
  • 采用 wafer-to-wafer 3D 堆叠——定制 DRAM die 与逻辑 wafer 堆叠,减少功耗和面积
  • 幻灯片明确写了 "Customized DRAM dies reduce power and area; wafer-to-wafer 3D stacking combines DRAM and logic wafers"
  • 8 个 NUMA 域跨两个 chiplet 组织这些 DRAM(原文我们推算了两级 NUMA,实际是 8 个域)
  • SDMA 引擎自动管理 HBM ↔ DRAM 数据搬运

2.3 HBM 可编程模式

幻灯片确认 HBM 支持 Cache 模式Flat 模式两种可编程选择:

  • Cache 模式:开箱即用的带宽优化
  • Flat 模式:深度用户手动调优

三、系统层级确认

TNP 从幻灯片中整理出了完整的物理拓扑,原文没有覆盖到这一层:

层级 配置 说明
Node 2-socket LX2 基础计算单元
Blade 8 node PCIe 5.0 互联 blade 内节点
Frame 16 blade = 128 node = 256 CPU 交换机互联 blade,30.87 PFLOPS FP64
Cabinet 2 frame 一个机柜两个 frame
全系统(论文) 160 frame 20,480 node / 40,960 CPU
全系统(HPL) ~177 frame 22,680 node / 45,360 CPU

Frame 内部用 PCIe 5.0 交换机互联(TNP 称为"便宜的互联方式"),Frame 之间走灵启(LingQi)网络。


四、网络:灵启的完整细节

原文推测灵启可能基于 InfiniBand 变体。TNP 和幻灯片提供了完整的拓扑细节:

  • 4 层 fat-tree 拓扑(L1–L4),只有 L4 用光纤,L1–L3 全部铜缆
  • 184 个计算 frame(compute frame)+ 32 个网络 frame(network frame)
  • L1 层:每计算 frame 有 16 个 L1 交换/计算 blade
  • L2 层:每计算 frame 有 8 个 L2 交换 blade
  • L3 层:每网络 frame 有 16 个 L3 交换 blade
  • L4 层:每网络 frame 有 6 个 L4 交换 blade
  • 全系统:22,000+ 节点,200,000 端口
  • 全系统对分带宽:≥ 3.5 Pbps(petabits per second)
  • 单跳延迟:1.07 μs
  • 每节点带宽:1.6 Tb/s(2 × 400 Gb/s,NIC 集成在 LX2 die 内)

可靠性设计:

  • 信用制流控(credit-based flow control),无损通信
  • 双平面网络 + 多轨通信(dual-plane + multi-rail)
  • 链路级、芯片级、机柜级三层冗余
  • 硬件支持遥测(telemetry),秒级数据采集和主动推送

幻灯片还显示了一颗交换机 ASIC 的芯片照片,尺寸不小,暗示灵启交换机是定制硅而非商用芯片。

TNP 认为单跳延迟 1.07 μs"听起来更像以太网而非 InfiniBand",但也可能是 InfiniBand 实现。配合 credit-based 流控和无损通信,灵启的核心设计目标显然是面向 HPC 和 AI 训练的确定性低延迟网络——不是通用数据中心以太网。


五、性能与功耗新数据

5.1 HPL 效率

原文没有讨论。TNP 计算:HPL 计算效率 = 80.35%(2.198 EFLOPS / 2.74 EFLOPS 峰值)。这个数字相当高——对比:

系统 HPL 效率
K(富士通) 93%(历史最高)
Fugaku 82.3%
灵晟 80.35%

TNP 评价:"相当他妈的好"(pretty damned good),并归因于"把大算力与健康的核心数融合在一起,而不是分开"。

5.2 TDP 与系统功耗

  • 每 LX2:690W
  • 全系统:42.2 MW(远高于美国三大 E 级系统的 < 30 MW)

TNP 对此的评价是:额外的功耗换来了更低的计算复杂度——没有 offload 模型、统一 HBM + DRAM 地址空间、没有 GPU 软件栈的成本。

5.3 每核性能确认

幻灯片确认了原文引用的峰值数字:

  • FP64:60.3 TFLOPS per LX2 → 约 198 GFLOPS/核
  • SVE2 + SME 混合提供 FP64/32/16/INT8 全覆盖

5.4 SME + SVE 软件栈性能实证

HACI 2026 的另一张幻灯片「SME-Enabled, HBM-Aware Matrix Acceleration」提供了 LX2 上 SME/SVE 软件优化的实测数据,并引用了三篇已发表论文。原文分析了 SME 的微架构,但没有覆盖这些优化技术的实际收益。

SME 矩阵化效率: 通过将 HPC 和 AI 工作负载中不同形态的矩阵运算统一映射到 SME——包括 stencil 中的 multi-row-update matmul、GEMM 中的 square-tile matmul、Transformer 中的 tall-and-skinny matmul(QKᵀ 和 SV)——高效矩阵化将 SME 利用率提升了 40% 以上。

SVE + SME 交错调度: SVE 在 SME 不擅长的场景中互补——stencil 中的单行更新(single-row-update)、GEMM 的边界处理、Transformer 的 online softmax。交错调度 SME 和 SVE 的指令流,IPC 提升最高 1.59×。 这与我们原文对 D2AR 论文中 asymmetric SME-GEMM 调度策略的分析一致——SME 和 SVE 不是对等混合,而是以 SME 为主、SVE 在 SME pipeline 间隙做辅助。

内存感知的数据布局:

  • HBM 缓冲池预分配 → 内存占用减少 3.9 GB
  • 分块(blocking)保持工作 tile 常驻缓存 + 打包(packing)将 tile 重组为 SME 友好布局 + 预取(prefetching)非连续数据 → 缓存命中率提升最高 28%

实测加速比:

工作负载 加速比 对比基线 来源
Stencil 最高 4.1× 编译器自动向量化 HStencil (SC'25)
GEMM 1.11–1.75× 厂商数学库 KirbyMM (DATE'26 Best Paper)
Attention 平均 13.62× SOTA 实现 SMEAtten (Euro-Par'26)

三篇论文分别为:HStencil(SC'25)KirbyMM(DATE'26 最佳论文)SMEAtten(Euro-Par'26)。这些数据证实了原文的一个核心判断:在 CPU 上集成 SME 不是"聊胜于无"的附加功能——配合软件栈的深度优化,它可以在特定负载上产生数倍的加速比。其中 Attention 的 13.62× 尤其值得关注,因为这说明纯 CPU 在 Transformer 推理上有可能找到 GPU 之外的竞争力路径。

5.5 大模型推理实测:DeepSeek 578 TPS

HACI 2026 的系统总览幻灯片还披露了一个关键的推理实测数据:

  • 单颗 LX2 的 DeepSeek Decode 吞吐量达到 578 TPS(tokens per second)
  • 综合吞吐量达到"双……"(幻灯片此处被遮挡,但结合上下文推断是双位数或双倍级别的总吞吐)
  • 正在推进 Qwen 等主流及国产大模型的规模化训练和推理部署

578 TPS 这个数字放在 CPU 语境下非常值得注意。作为参考,一台 NVIDIA H100 在类似 Decode 负载下的典型吞吐约 2,000–4,000 TPS(受 batch size 和模型大小影响很大),但 H100 的单卡功耗约 700W——与 LX2 的 690W 几乎一样。578 TPS vs 2,000–4,000 TPS 意味着 GPU 仍有 3–7 倍的优势,但考虑到这是同构 CPU 架构 + 第一代 SME + 没有 GPU 软件栈的前提,这个数字并不低。

对于 Agentic AI 推理(原文第六章的核心论点)——低延迟、小 batch、长序列、稀疏计算——CPU 的统一内存 + SME + SVE 组合完全有可能在 TCO(总拥有成本)上找到竞争力。

5.6 配套系统:一个异构设施

同一张幻灯片还披露了灵晟所在的深超二期不仅仅是纯 CPU 集群——它是一个综合性算力设施:

系统 配置 用途
灵晟主系统 ARMv9 LX2 纯 CPU HPC + AI 训推
工业计算系统 1,580 台 X86 刀片(101,120 核),10+ PFLOPS,200 PB 存储 工业仿真、传统 HPC
先导验证系统 100 台鲲鹏服务器(12,800 核) 生态适配和验证
四路/八路服务器 16 台四路 + 4 台八路(共 3,328 核) 大内存计算

另外,灵晟的软件生态兼容 400+ 主流超算软件,工具链包含编译器、调试器和性能调优工具。


六、另一台系统:CNIS

TNP 文章中还提到了同一篇 NSC 深圳论文中描述的另一台 E 级系统——中国新一代智能超算(CNIS),这是一台 CPU+GPU 异构系统:

  • 5,632 节点
  • 每节点 2 颗 64 核 CPU + 8 颗 GPU
  • GPU 峰值:32.7 TFLOPS FP64 / 65.5 TFLOPS FP32 / 470 TFLOPS FP16
  • GPU 内存:64 GB HBM,1.8 TB/s 带宽
  • 互联:类 InfiniBand RDMA 网络,3 层 Clos 双平面拓扑,每节点 4 × 400 Gb/s

原文没有提到 CNIS。TNP 推测 GPU "来源不明但应该是国产"。


七、更正汇总

项目 原文 修正为 来源
LX2 设计方 未明确 NSC 深圳 + 华为海思 TNP
工艺 SMIC 7nm(推测) SMIC 7nm N+3(确认) TNP
CPU 数量 ~47,000 40,960(论文)/ 45,360(HPL) TNP / 芯智讯
HBM 容量 32 GB per socket 64 GB per socket(2 × 32 GB chiplet) TNP / 幻灯片
HBM 带宽 4 TB/s 8 TB/s per socket(2 × 4 TB/s chiplet) TNP
DRAM 类型 DDR5 LPDDR5X,wafer-to-wafer 3D 堆叠 幻灯片
DRAM 容量 未明确 256 GB per socket TNP
chiplet 原始核数 未提及 192 核/chiplet,304 活跃(79.2% 良率) TNP
LX2 TDP 未提及 690W 幻灯片
全系统功耗 未提及 42.2 MW TNP
HPL 效率 未提及 80.35% TNP
片上 NIC 未提及 800 Gbps 幻灯片
灵启单跳延迟 未提及 1.07 μs TNP
NUMA 域数 两级推测 8 域(确认) 幻灯片
CNIS 系统 未提及 5,632 节点 CPU+GPU 异构 TNP
DeepSeek 推理 未提及 578 TPS per LX2 Decode 幻灯片
灵启端口规模 未提及 200,000 端口 幻灯片
灵启流控机制 未提及 信用制(credit-based)无损 幻灯片
遥测 未提及 硬件支持,秒级采集主动推送 幻灯片
软件生态 未提及 400+ 兼容软件,编译器/调试器/调优工具完整 幻灯片
配套系统 未提及 X86 工业系统 + 鲲鹏验证集群 幻灯片

资料来源:

  • Timothy Prickett Morgan, "A Deep Dive On China's 'LineShine' All-CPU, Exaflops-Class Supercomputer", The Next Platform, 2026-06-25
  • HACI 2026 灵晟演讲幻灯片(由 Torsten Hoefler / Tadashi Ogawa 公开发布)
  • NSC 深圳, "Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials", arXiv, 2026-04-17
  • 芯智讯, "2.198EFlops!时隔 8 年,中国超算重回全球第一!", 2026-06-24