灵晟补遗：Next Platform 深度拆解确认的新细节

这篇文章是《灵晟超算登顶 TOP500》的补充修正。 2026 年 6 月 25 日，The Next Platform 联合创始人 Timothy Prickett Morgan 发表了灵晟系统的深度拆解文章，引用了 NSC 深圳在 HACI 2026 上的演讲幻灯片（由系统主架构师卢宇彤主讲）和一篇 NSC 深圳 4 月发表的 AI 论文中的技术参数。结合这些新资料，对原文做以下确认和修正。

一、架构确认与修正

1.1 LX2 设计方：NSC 深圳 + 华为海思

原文未明确 LX2 的设计方。TNP 确认：LX2 由 NSC 深圳与华为（推测为海思半导体部门）联合设计。 SVE2 单元是从 ARM Neoverse IP block copy 而来，SME 矩阵单元则是华为的定制实现。

1.2 工艺节点：SMIC 7nm N+3

原文推算 SMIC 7nm，TNP 进一步确认为 SMIC 7nm N+3 改良版工艺。TNP 的推理链：1.55 GHz 远低于 SMIC 7nm 可以达到的 3 GHz——降频是为了在核心速度和内存速度之间取得平衡，同时压低功耗曲线。690W TDP 已经偏高，再不降频就更难散热。

这个推理与我们原文的 chiplet 面积推算互补——不是因为做不大，而是为了能效甜点主动降频，靠规模弥补单核性能。

1.3 Chiplet 结构与良率

幻灯片确认了 2 chiplet 的 chiplet 设计。更关键的是 TNP 从 die shot 推算出了 die 上的原始核心数：

每 chiplet 有 48 个核心块，每块含 4 个核 → 每 chiplet 192 个原始核
每 socket 384 个原始核，实际暴露 304 个核 → 良率 79.2%
这与 TNP 说的"SMIC 7nm 预期良率范围一致"

这个发现比我们原文的纯面积推算更精确——我们当时推断了 chiplet 方案，但没有原始核心数和良率的具体数字。

1.4 CPU 数量修正

原文说"47,000 颗 CPU"，需要修正。 实际有两个数字：

NSC 深圳论文中描述的配置：20,480 节点 × 2 socket = 40,960 颗 LX2
HPL 跑分时使用的配置额外增加了 2,200 节点：22,680 节点 × 2 socket = 45,360 颗 LX2，13,789,440 核

HPL 跑分用的是更大的配置（比论文配置多了约 10% 的节点），这与 TNP 说的"中国可以随时继续扩展"一致。

二、内存系统修正

2.1 HBM 容量：64 GB per socket，不是 32 GB

这是最重要的修正。 原文说"每 CPU 集成 32 GB HBM（4 TB/s）"，这个数字来自 NSC 深圳论文中对"每芯片"的描述。TNP 指出论文表述有歧义——实际是每 chiplet 32 GB + 4 TB/s，每 socket 合计 64 GB + 8 TB/s。

幻灯片上的 "HBM 4 TB/s" 对应的是单 chiplet 数据。每 chiplet 的 4 个 24 核 block 各分配一个 HBM stack。

TNP 推测这是 HBM2E 的略微增强版本。

2.2 DRAM：3D 堆叠 LPDDR5X，不是普通 DDR5

原文只说"DDR5"。TNP 提供了更精确的信息：

256 GB LPDDR5X per socket（不是 DDR5），推测来自长鑫存储（CXMT）2025 年底展示的 10.7 GHz LPDDR5X
采用 wafer-to-wafer 3D 堆叠——定制 DRAM die 与逻辑 wafer 堆叠，减少功耗和面积
幻灯片明确写了 "Customized DRAM dies reduce power and area; wafer-to-wafer 3D stacking combines DRAM and logic wafers"
8 个 NUMA 域跨两个 chiplet 组织这些 DRAM（原文我们推算了两级 NUMA，实际是 8 个域）
SDMA 引擎自动管理 HBM ↔ DRAM 数据搬运

2.3 HBM 可编程模式

幻灯片确认 HBM 支持 Cache 模式和 Flat 模式两种可编程选择：

Cache 模式：开箱即用的带宽优化
Flat 模式：深度用户手动调优

三、系统层级确认

TNP 从幻灯片中整理出了完整的物理拓扑，原文没有覆盖到这一层：

层级	配置	说明
Node	2-socket LX2	基础计算单元
Blade	8 node	PCIe 5.0 互联 blade 内节点
Frame	16 blade = 128 node = 256 CPU	交换机互联 blade，30.87 PFLOPS FP64
Cabinet	2 frame	一个机柜两个 frame
全系统（论文）	160 frame	20,480 node / 40,960 CPU
全系统（HPL）	~177 frame	22,680 node / 45,360 CPU

Frame 内部用 PCIe 5.0 交换机互联（TNP 称为"便宜的互联方式"），Frame 之间走灵启（LingQi）网络。

四、网络：灵启的完整细节

原文推测灵启可能基于 InfiniBand 变体。TNP 和幻灯片提供了完整的拓扑细节：

4 层 fat-tree 拓扑（L1–L4），只有 L4 用光纤，L1–L3 全部铜缆
184 个计算 frame（compute frame）+ 32 个网络 frame（network frame）
L1 层：每计算 frame 有 16 个 L1 交换/计算 blade
L2 层：每计算 frame 有 8 个 L2 交换 blade
L3 层：每网络 frame 有 16 个 L3 交换 blade
L4 层：每网络 frame 有 6 个 L4 交换 blade
全系统：22,000+ 节点，200,000 端口
全系统对分带宽：≥ 3.5 Pbps（petabits per second）
单跳延迟：1.07 μs
每节点带宽：1.6 Tb/s（2 × 400 Gb/s，NIC 集成在 LX2 die 内）

可靠性设计：

信用制流控（credit-based flow control），无损通信
双平面网络 + 多轨通信（dual-plane + multi-rail）
链路级、芯片级、机柜级三层冗余
硬件支持遥测（telemetry），秒级数据采集和主动推送

幻灯片还显示了一颗交换机 ASIC 的芯片照片，尺寸不小，暗示灵启交换机是定制硅而非商用芯片。

TNP 认为单跳延迟 1.07 μs"听起来更像以太网而非 InfiniBand"，但也可能是 InfiniBand 实现。配合 credit-based 流控和无损通信，灵启的核心设计目标显然是面向 HPC 和 AI 训练的确定性低延迟网络——不是通用数据中心以太网。

五、性能与功耗新数据

5.1 HPL 效率

原文没有讨论。TNP 计算：HPL 计算效率 = 80.35%（2.198 EFLOPS / 2.74 EFLOPS 峰值）。这个数字相当高——对比：

系统	HPL 效率
K（富士通）	93%（历史最高）
Fugaku	82.3%
灵晟	80.35%

TNP 评价："相当他妈的好"（pretty damned good），并归因于"把大算力与健康的核心数融合在一起，而不是分开"。

5.2 TDP 与系统功耗

每 LX2：690W
全系统：42.2 MW（远高于美国三大 E 级系统的 < 30 MW）

TNP 对此的评价是：额外的功耗换来了更低的计算复杂度——没有 offload 模型、统一 HBM + DRAM 地址空间、没有 GPU 软件栈的成本。

5.3 每核性能确认

幻灯片确认了原文引用的峰值数字：

FP64：60.3 TFLOPS per LX2 → 约 198 GFLOPS/核
SVE2 + SME 混合提供 FP64/32/16/INT8 全覆盖

5.4 SME + SVE 软件栈性能实证

HACI 2026 的另一张幻灯片「SME-Enabled, HBM-Aware Matrix Acceleration」提供了 LX2 上 SME/SVE 软件优化的实测数据，并引用了三篇已发表论文。原文分析了 SME 的微架构，但没有覆盖这些优化技术的实际收益。

SME 矩阵化效率： 通过将 HPC 和 AI 工作负载中不同形态的矩阵运算统一映射到 SME——包括 stencil 中的 multi-row-update matmul、GEMM 中的 square-tile matmul、Transformer 中的 tall-and-skinny matmul（QKᵀ 和 SV）——高效矩阵化将 SME 利用率提升了 40% 以上。

SVE + SME 交错调度： SVE 在 SME 不擅长的场景中互补——stencil 中的单行更新（single-row-update）、GEMM 的边界处理、Transformer 的 online softmax。交错调度 SME 和 SVE 的指令流，IPC 提升最高 1.59×。 这与我们原文对 D2AR 论文中 asymmetric SME-GEMM 调度策略的分析一致——SME 和 SVE 不是对等混合，而是以 SME 为主、SVE 在 SME pipeline 间隙做辅助。

内存感知的数据布局：

HBM 缓冲池预分配 → 内存占用减少 3.9 GB
分块（blocking）保持工作 tile 常驻缓存 + 打包（packing）将 tile 重组为 SME 友好布局 + 预取（prefetching）非连续数据 → 缓存命中率提升最高 28%

实测加速比：

工作负载	加速比	对比基线	来源
Stencil	最高 4.1×	编译器自动向量化	HStencil (SC'25)
GEMM	1.11–1.75×	厂商数学库	KirbyMM (DATE'26 Best Paper)
Attention	平均 13.62×	SOTA 实现	SMEAtten (Euro-Par'26)

三篇论文分别为：HStencil（SC'25）、KirbyMM（DATE'26 最佳论文）、SMEAtten（Euro-Par'26）。这些数据证实了原文的一个核心判断：在 CPU 上集成 SME 不是"聊胜于无"的附加功能——配合软件栈的深度优化，它可以在特定负载上产生数倍的加速比。其中 Attention 的 13.62× 尤其值得关注，因为这说明纯 CPU 在 Transformer 推理上有可能找到 GPU 之外的竞争力路径。

5.5 大模型推理实测：DeepSeek 578 TPS

HACI 2026 的系统总览幻灯片还披露了一个关键的推理实测数据：

单颗 LX2 的 DeepSeek Decode 吞吐量达到 578 TPS（tokens per second）
综合吞吐量达到"双……"（幻灯片此处被遮挡，但结合上下文推断是双位数或双倍级别的总吞吐）
正在推进 Qwen 等主流及国产大模型的规模化训练和推理部署

578 TPS 这个数字放在 CPU 语境下非常值得注意。作为参考，一台 NVIDIA H100 在类似 Decode 负载下的典型吞吐约 2,000–4,000 TPS（受 batch size 和模型大小影响很大），但 H100 的单卡功耗约 700W——与 LX2 的 690W 几乎一样。578 TPS vs 2,000–4,000 TPS 意味着 GPU 仍有 3–7 倍的优势，但考虑到这是同构 CPU 架构 + 第一代 SME + 没有 GPU 软件栈的前提，这个数字并不低。

对于 Agentic AI 推理（原文第六章的核心论点）——低延迟、小 batch、长序列、稀疏计算——CPU 的统一内存 + SME + SVE 组合完全有可能在 TCO（总拥有成本）上找到竞争力。

5.6 配套系统：一个异构设施

同一张幻灯片还披露了灵晟所在的深超二期不仅仅是纯 CPU 集群——它是一个综合性算力设施：

系统	配置	用途
灵晟主系统	ARMv9 LX2 纯 CPU	HPC + AI 训推
工业计算系统	1,580 台 X86 刀片（101,120 核），10+ PFLOPS，200 PB 存储	工业仿真、传统 HPC
先导验证系统	100 台鲲鹏服务器（12,800 核）	生态适配和验证
四路/八路服务器	16 台四路 + 4 台八路（共 3,328 核）	大内存计算

另外，灵晟的软件生态兼容 400+ 主流超算软件，工具链包含编译器、调试器和性能调优工具。

六、另一台系统：CNIS

TNP 文章中还提到了同一篇 NSC 深圳论文中描述的另一台 E 级系统——中国新一代智能超算（CNIS），这是一台 CPU+GPU 异构系统：

5,632 节点
每节点 2 颗 64 核 CPU + 8 颗 GPU
GPU 峰值：32.7 TFLOPS FP64 / 65.5 TFLOPS FP32 / 470 TFLOPS FP16
GPU 内存：64 GB HBM，1.8 TB/s 带宽
互联：类 InfiniBand RDMA 网络，3 层 Clos 双平面拓扑，每节点 4 × 400 Gb/s

原文没有提到 CNIS。TNP 推测 GPU "来源不明但应该是国产"。

七、更正汇总

项目	原文	修正为	来源
LX2 设计方	未明确	NSC 深圳 + 华为海思	TNP
工艺	SMIC 7nm（推测）	SMIC 7nm N+3（确认）	TNP
CPU 数量	~47,000	40,960（论文）/ 45,360（HPL）	TNP / 芯智讯
HBM 容量	32 GB per socket	64 GB per socket（2 × 32 GB chiplet）	TNP / 幻灯片
HBM 带宽	4 TB/s	8 TB/s per socket（2 × 4 TB/s chiplet）	TNP
DRAM 类型	DDR5	LPDDR5X，wafer-to-wafer 3D 堆叠	幻灯片
DRAM 容量	未明确	256 GB per socket	TNP
chiplet 原始核数	未提及	192 核/chiplet，304 活跃（79.2% 良率）	TNP
LX2 TDP	未提及	690W	幻灯片
全系统功耗	未提及	42.2 MW	TNP
HPL 效率	未提及	80.35%	TNP
片上 NIC	未提及	800 Gbps	幻灯片
灵启单跳延迟	未提及	1.07 μs	TNP
NUMA 域数	两级推测	8 域（确认）	幻灯片
CNIS 系统	未提及	5,632 节点 CPU+GPU 异构	TNP
DeepSeek 推理	未提及	578 TPS per LX2 Decode	幻灯片
灵启端口规模	未提及	200,000 端口	幻灯片
灵启流控机制	未提及	信用制（credit-based）无损	幻灯片
遥测	未提及	硬件支持，秒级采集主动推送	幻灯片
软件生态	未提及	400+ 兼容软件，编译器/调试器/调优工具完整	幻灯片
配套系统	未提及	X86 工业系统 + 鲲鹏验证集群	幻灯片

资料来源：

Timothy Prickett Morgan, "A Deep Dive On China's 'LineShine' All-CPU, Exaflops-Class Supercomputer", The Next Platform, 2026-06-25
HACI 2026 灵晟演讲幻灯片（由 Torsten Hoefler / Tadashi Ogawa 公开发布）
NSC 深圳, "Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials", arXiv, 2026-04-17
芯智讯, "2.198EFlops！时隔 8 年，中国超算重回全球第一！", 2026-06-24