这篇文章是《灵晟超算登顶 TOP500》的补充修正。 2026 年 6 月 25 日,The Next Platform 联合创始人 Timothy Prickett Morgan 发表了灵晟系统的深度拆解文章,引用了 NSC 深圳在 HACI 2026 上的演讲幻灯片(由系统主架构师卢宇彤主讲)和一篇 NSC 深圳 4 月发表的 AI 论文中的技术参数。结合这些新资料,对原文做以下确认和修正。
一、架构确认与修正
1.1 LX2 设计方:NSC 深圳 + 华为海思
原文未明确 LX2 的设计方。TNP 确认:LX2 由 NSC 深圳与华为(推测为海思半导体部门)联合设计。 SVE2 单元是从 ARM Neoverse IP block copy 而来,SME 矩阵单元则是华为的定制实现。
1.2 工艺节点:SMIC 7nm N+3
原文推算 SMIC 7nm,TNP 进一步确认为 SMIC 7nm N+3 改良版工艺。TNP 的推理链:1.55 GHz 远低于 SMIC 7nm 可以达到的 3 GHz——降频是为了在核心速度和内存速度之间取得平衡,同时压低功耗曲线。690W TDP 已经偏高,再不降频就更难散热。
这个推理与我们原文的 chiplet 面积推算互补——不是因为做不大,而是为了能效甜点主动降频,靠规模弥补单核性能。
1.3 Chiplet 结构与良率
幻灯片确认了 2 chiplet 的 chiplet 设计。更关键的是 TNP 从 die shot 推算出了 die 上的原始核心数:
- 每 chiplet 有 48 个核心块,每块含 4 个核 → 每 chiplet 192 个原始核
- 每 socket 384 个原始核,实际暴露 304 个核 → 良率 79.2%
- 这与 TNP 说的"SMIC 7nm 预期良率范围一致"
这个发现比我们原文的纯面积推算更精确——我们当时推断了 chiplet 方案,但没有原始核心数和良率的具体数字。
1.4 CPU 数量修正
原文说"47,000 颗 CPU",需要修正。 实际有两个数字:
- NSC 深圳论文中描述的配置:20,480 节点 × 2 socket = 40,960 颗 LX2
- HPL 跑分时使用的配置额外增加了 2,200 节点:22,680 节点 × 2 socket = 45,360 颗 LX2,13,789,440 核
HPL 跑分用的是更大的配置(比论文配置多了约 10% 的节点),这与 TNP 说的"中国可以随时继续扩展"一致。
二、内存系统修正
2.1 HBM 容量:64 GB per socket,不是 32 GB
这是最重要的修正。 原文说"每 CPU 集成 32 GB HBM(4 TB/s)",这个数字来自 NSC 深圳论文中对"每芯片"的描述。TNP 指出论文表述有歧义——实际是每 chiplet 32 GB + 4 TB/s,每 socket 合计 64 GB + 8 TB/s。
幻灯片上的 "HBM 4 TB/s" 对应的是单 chiplet 数据。每 chiplet 的 4 个 24 核 block 各分配一个 HBM stack。
TNP 推测这是 HBM2E 的略微增强版本。
2.2 DRAM:3D 堆叠 LPDDR5X,不是普通 DDR5
原文只说"DDR5"。TNP 提供了更精确的信息:
- 256 GB LPDDR5X per socket(不是 DDR5),推测来自长鑫存储(CXMT)2025 年底展示的 10.7 GHz LPDDR5X
- 采用 wafer-to-wafer 3D 堆叠——定制 DRAM die 与逻辑 wafer 堆叠,减少功耗和面积
- 幻灯片明确写了 "Customized DRAM dies reduce power and area; wafer-to-wafer 3D stacking combines DRAM and logic wafers"
- 8 个 NUMA 域跨两个 chiplet 组织这些 DRAM(原文我们推算了两级 NUMA,实际是 8 个域)
- SDMA 引擎自动管理 HBM ↔ DRAM 数据搬运
2.3 HBM 可编程模式
幻灯片确认 HBM 支持 Cache 模式和 Flat 模式两种可编程选择:
- Cache 模式:开箱即用的带宽优化
- Flat 模式:深度用户手动调优
三、系统层级确认
TNP 从幻灯片中整理出了完整的物理拓扑,原文没有覆盖到这一层:
| 层级 | 配置 | 说明 |
|---|---|---|
| Node | 2-socket LX2 | 基础计算单元 |
| Blade | 8 node | PCIe 5.0 互联 blade 内节点 |
| Frame | 16 blade = 128 node = 256 CPU | 交换机互联 blade,30.87 PFLOPS FP64 |
| Cabinet | 2 frame | 一个机柜两个 frame |
| 全系统(论文) | 160 frame | 20,480 node / 40,960 CPU |
| 全系统(HPL) | ~177 frame | 22,680 node / 45,360 CPU |
Frame 内部用 PCIe 5.0 交换机互联(TNP 称为"便宜的互联方式"),Frame 之间走灵启(LingQi)网络。
四、网络:灵启的完整细节
原文推测灵启可能基于 InfiniBand 变体。TNP 和幻灯片提供了完整的拓扑细节:
- 4 层 fat-tree 拓扑(L1–L4),只有 L4 用光纤,L1–L3 全部铜缆
- 184 个计算 frame(compute frame)+ 32 个网络 frame(network frame)
- L1 层:每计算 frame 有 16 个 L1 交换/计算 blade
- L2 层:每计算 frame 有 8 个 L2 交换 blade
- L3 层:每网络 frame 有 16 个 L3 交换 blade
- L4 层:每网络 frame 有 6 个 L4 交换 blade
- 全系统:22,000+ 节点,200,000 端口
- 全系统对分带宽:≥ 3.5 Pbps(petabits per second)
- 单跳延迟:1.07 μs
- 每节点带宽:1.6 Tb/s(2 × 400 Gb/s,NIC 集成在 LX2 die 内)
可靠性设计:
- 信用制流控(credit-based flow control),无损通信
- 双平面网络 + 多轨通信(dual-plane + multi-rail)
- 链路级、芯片级、机柜级三层冗余
- 硬件支持遥测(telemetry),秒级数据采集和主动推送
幻灯片还显示了一颗交换机 ASIC 的芯片照片,尺寸不小,暗示灵启交换机是定制硅而非商用芯片。
TNP 认为单跳延迟 1.07 μs"听起来更像以太网而非 InfiniBand",但也可能是 InfiniBand 实现。配合 credit-based 流控和无损通信,灵启的核心设计目标显然是面向 HPC 和 AI 训练的确定性低延迟网络——不是通用数据中心以太网。
五、性能与功耗新数据
5.1 HPL 效率
原文没有讨论。TNP 计算:HPL 计算效率 = 80.35%(2.198 EFLOPS / 2.74 EFLOPS 峰值)。这个数字相当高——对比:
| 系统 | HPL 效率 |
|---|---|
| K(富士通) | 93%(历史最高) |
| Fugaku | 82.3% |
| 灵晟 | 80.35% |
TNP 评价:"相当他妈的好"(pretty damned good),并归因于"把大算力与健康的核心数融合在一起,而不是分开"。
5.2 TDP 与系统功耗
- 每 LX2:690W
- 全系统:42.2 MW(远高于美国三大 E 级系统的 < 30 MW)
TNP 对此的评价是:额外的功耗换来了更低的计算复杂度——没有 offload 模型、统一 HBM + DRAM 地址空间、没有 GPU 软件栈的成本。
5.3 每核性能确认
幻灯片确认了原文引用的峰值数字:
- FP64:60.3 TFLOPS per LX2 → 约 198 GFLOPS/核
- SVE2 + SME 混合提供 FP64/32/16/INT8 全覆盖
5.4 SME + SVE 软件栈性能实证
HACI 2026 的另一张幻灯片「SME-Enabled, HBM-Aware Matrix Acceleration」提供了 LX2 上 SME/SVE 软件优化的实测数据,并引用了三篇已发表论文。原文分析了 SME 的微架构,但没有覆盖这些优化技术的实际收益。
SME 矩阵化效率: 通过将 HPC 和 AI 工作负载中不同形态的矩阵运算统一映射到 SME——包括 stencil 中的 multi-row-update matmul、GEMM 中的 square-tile matmul、Transformer 中的 tall-and-skinny matmul(QKᵀ 和 SV)——高效矩阵化将 SME 利用率提升了 40% 以上。
SVE + SME 交错调度: SVE 在 SME 不擅长的场景中互补——stencil 中的单行更新(single-row-update)、GEMM 的边界处理、Transformer 的 online softmax。交错调度 SME 和 SVE 的指令流,IPC 提升最高 1.59×。 这与我们原文对 D2AR 论文中 asymmetric SME-GEMM 调度策略的分析一致——SME 和 SVE 不是对等混合,而是以 SME 为主、SVE 在 SME pipeline 间隙做辅助。
内存感知的数据布局:
- HBM 缓冲池预分配 → 内存占用减少 3.9 GB
- 分块(blocking)保持工作 tile 常驻缓存 + 打包(packing)将 tile 重组为 SME 友好布局 + 预取(prefetching)非连续数据 → 缓存命中率提升最高 28%
实测加速比:
| 工作负载 | 加速比 | 对比基线 | 来源 |
|---|---|---|---|
| Stencil | 最高 4.1× | 编译器自动向量化 | HStencil (SC'25) |
| GEMM | 1.11–1.75× | 厂商数学库 | KirbyMM (DATE'26 Best Paper) |
| Attention | 平均 13.62× | SOTA 实现 | SMEAtten (Euro-Par'26) |
三篇论文分别为:HStencil(SC'25)、KirbyMM(DATE'26 最佳论文)、SMEAtten(Euro-Par'26)。这些数据证实了原文的一个核心判断:在 CPU 上集成 SME 不是"聊胜于无"的附加功能——配合软件栈的深度优化,它可以在特定负载上产生数倍的加速比。其中 Attention 的 13.62× 尤其值得关注,因为这说明纯 CPU 在 Transformer 推理上有可能找到 GPU 之外的竞争力路径。
5.5 大模型推理实测:DeepSeek 578 TPS
HACI 2026 的系统总览幻灯片还披露了一个关键的推理实测数据:
- 单颗 LX2 的 DeepSeek Decode 吞吐量达到 578 TPS(tokens per second)
- 综合吞吐量达到"双……"(幻灯片此处被遮挡,但结合上下文推断是双位数或双倍级别的总吞吐)
- 正在推进 Qwen 等主流及国产大模型的规模化训练和推理部署
578 TPS 这个数字放在 CPU 语境下非常值得注意。作为参考,一台 NVIDIA H100 在类似 Decode 负载下的典型吞吐约 2,000–4,000 TPS(受 batch size 和模型大小影响很大),但 H100 的单卡功耗约 700W——与 LX2 的 690W 几乎一样。578 TPS vs 2,000–4,000 TPS 意味着 GPU 仍有 3–7 倍的优势,但考虑到这是同构 CPU 架构 + 第一代 SME + 没有 GPU 软件栈的前提,这个数字并不低。
对于 Agentic AI 推理(原文第六章的核心论点)——低延迟、小 batch、长序列、稀疏计算——CPU 的统一内存 + SME + SVE 组合完全有可能在 TCO(总拥有成本)上找到竞争力。
5.6 配套系统:一个异构设施
同一张幻灯片还披露了灵晟所在的深超二期不仅仅是纯 CPU 集群——它是一个综合性算力设施:
| 系统 | 配置 | 用途 |
|---|---|---|
| 灵晟主系统 | ARMv9 LX2 纯 CPU | HPC + AI 训推 |
| 工业计算系统 | 1,580 台 X86 刀片(101,120 核),10+ PFLOPS,200 PB 存储 | 工业仿真、传统 HPC |
| 先导验证系统 | 100 台鲲鹏服务器(12,800 核) | 生态适配和验证 |
| 四路/八路服务器 | 16 台四路 + 4 台八路(共 3,328 核) | 大内存计算 |
另外,灵晟的软件生态兼容 400+ 主流超算软件,工具链包含编译器、调试器和性能调优工具。
六、另一台系统:CNIS
TNP 文章中还提到了同一篇 NSC 深圳论文中描述的另一台 E 级系统——中国新一代智能超算(CNIS),这是一台 CPU+GPU 异构系统:
- 5,632 节点
- 每节点 2 颗 64 核 CPU + 8 颗 GPU
- GPU 峰值:32.7 TFLOPS FP64 / 65.5 TFLOPS FP32 / 470 TFLOPS FP16
- GPU 内存:64 GB HBM,1.8 TB/s 带宽
- 互联:类 InfiniBand RDMA 网络,3 层 Clos 双平面拓扑,每节点 4 × 400 Gb/s
原文没有提到 CNIS。TNP 推测 GPU "来源不明但应该是国产"。
七、更正汇总
| 项目 | 原文 | 修正为 | 来源 |
|---|---|---|---|
| LX2 设计方 | 未明确 | NSC 深圳 + 华为海思 | TNP |
| 工艺 | SMIC 7nm(推测) | SMIC 7nm N+3(确认) | TNP |
| CPU 数量 | ~47,000 | 40,960(论文)/ 45,360(HPL) | TNP / 芯智讯 |
| HBM 容量 | 32 GB per socket | 64 GB per socket(2 × 32 GB chiplet) | TNP / 幻灯片 |
| HBM 带宽 | 4 TB/s | 8 TB/s per socket(2 × 4 TB/s chiplet) | TNP |
| DRAM 类型 | DDR5 | LPDDR5X,wafer-to-wafer 3D 堆叠 | 幻灯片 |
| DRAM 容量 | 未明确 | 256 GB per socket | TNP |
| chiplet 原始核数 | 未提及 | 192 核/chiplet,304 活跃(79.2% 良率) | TNP |
| LX2 TDP | 未提及 | 690W | 幻灯片 |
| 全系统功耗 | 未提及 | 42.2 MW | TNP |
| HPL 效率 | 未提及 | 80.35% | TNP |
| 片上 NIC | 未提及 | 800 Gbps | 幻灯片 |
| 灵启单跳延迟 | 未提及 | 1.07 μs | TNP |
| NUMA 域数 | 两级推测 | 8 域(确认) | 幻灯片 |
| CNIS 系统 | 未提及 | 5,632 节点 CPU+GPU 异构 | TNP |
| DeepSeek 推理 | 未提及 | 578 TPS per LX2 Decode | 幻灯片 |
| 灵启端口规模 | 未提及 | 200,000 端口 | 幻灯片 |
| 灵启流控机制 | 未提及 | 信用制(credit-based)无损 | 幻灯片 |
| 遥测 | 未提及 | 硬件支持,秒级采集主动推送 | 幻灯片 |
| 软件生态 | 未提及 | 400+ 兼容软件,编译器/调试器/调优工具完整 | 幻灯片 |
| 配套系统 | 未提及 | X86 工业系统 + 鲲鹏验证集群 | 幻灯片 |
资料来源:
- Timothy Prickett Morgan, "A Deep Dive On China's 'LineShine' All-CPU, Exaflops-Class Supercomputer", The Next Platform, 2026-06-25
- HACI 2026 灵晟演讲幻灯片(由 Torsten Hoefler / Tadashi Ogawa 公开发布)
- NSC 深圳, "Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials", arXiv, 2026-04-17
- 芯智讯, "2.198EFlops!时隔 8 年,中国超算重回全球第一!", 2026-06-24
