← 返回观点 思考

韬定律 V2:从理论框架到生产级验证

何庭波韬定律论文 V2 版深度精读。381 颗量产芯片、麒麟 2026 LogicFolding 完整实测数据、AI 系统三层 τ 缩减架构(UB + Hi-ONE + 3D Folding)首次公开。附业界最前沿对比分析。

2026-07-03思考73 分钟阅读

韬定律 V2:从理论框架到生产级验证

2026 年 5 月 25 日,何庭波在 ISCAS 2026 上发表韬(τ)定律的概念框架。39 天后,论文 V2 出现在 ChinaXiv 上--被《中国科学杂志》录用,23 页,32 篇参考文献,两个生产级验证案例。如果说 V1 是"换一个维度看半导体演进"的理论宣言,V2 回答的是更硬的问题:这条路线在工程上跑通了吗?能跑多远?

一、V2 新增了什么

V1 的核心论点--以"时间缩微"替代"几何缩微"--并不复杂。难的是证明它不只是换了一种叙事。V2 的增量几乎全部在"证据"层面:

移动端验证:麒麟 2026 的 LogicFolding(逻辑折叠)实测数据从演讲中的几个数字,扩展为完整的芯片级对比表,包括功耗、面积、频率、SRAM、时钟树各项指标,以及一张从 2023 到 2029 年的 CPU 主频路线图。

AI 系统验证:这是 V1 完全没有的部分。V2 第一次公开了华为 AI 系统的"三层 τ 缩减架构"--Unified Bus(灵衢)、Hi-ONE 近封装光学引擎、3D Folding--三个组件放在同一个理论框架里,用 N2-vs-N 几何论证串联。

方法论升级:论文 Section 8 写道--"τ scaling is the first scaling principle since Dennard to give the entire stack a shared optimization target"。这句话在 V1 演讲中没有,是 V2 新增的。它的含义不是学术占位,而是对产业链的信号:过去四十年工艺工程师和系统架构师各自优化自己的指标(频率、带宽、延迟、面积),τ scaling 给了他们同一个度量衡。1974 年 Dennard 缩放理论建立了"电压和尺寸等比缩小可维持恒定电场"的原则,让器件物理学家和电路设计师有了共同语言。此后五十年,没有人再给出过覆盖器件到系统的统一标尺。τ scaling 试图填补这个空白。

二、麒麟 2026:LogicFolding 的完整成绩单

核心对比

V1 给出的关键数字是晶体管密度和功耗改善。V2 把完整对比表铺开了:

指标 Kirin 9030 Pro(平面) Kirin 2026(LogicFolding) 变化
晶体管密度 155 MTr/mm2 238 MTr/mm2 +53.5%(论文标称 55%)
等性能功耗1 1.0 0.59 -41%
芯片面积 1.0 0.625 -37.5%
SoC P-core 主频 2.75 GHz 3.1 GHz +13%
SRAM 频率 基准 +40% 以上 -
高速全局 NoC 数据路径面积 基准 -55% -
时钟缓冲器数量 基准 -50% -
时钟偏斜 基准 -25% -
走线长度(代表核心) 基准 -30% -

1 等性能条件:Kirin 9030 Pro 在 1.1V / 2.75 GHz 下运行,Kirin 2026 降到 0.9V / 2.5 GHz 时输出同等性能,实测功耗降至 0.59 倍。3.1 GHz 是 Kirin 2026 的最高频率,不在此等性能条件下。

这些数字的共同指向是:在同一制程节点上,仅通过电路拓扑的三维重组,拿到了过去需要约三年几何微缩才能实现的密度跃升。

Kirin 2026 LogicFolding 核心指标对比
Kirin 2026 LogicFolding 核心指标对比

论文还披露了两项容易被忽略但工程意义重大的实测结果:高速全局 Network-on-Chip 数据路径利用上下两层有源层构建,面积缩减 55%,同时改善了电源 delivery 稳定性;以及一项硅后时钟偏斜调整方案,独立贡献了 >5% 的 SoC 性能。前者说明 LogicFolding 不只是"把逻辑折起来",而是为片上互联拓扑提供了新的设计自由度;后者说明在物理实现层面,传统的"签核后不可改"的边界正在被模糊化。

关键工艺参数

论文披露了 LogicFolding 的核心工艺指标:

  • 混合键合间距:1.5 μm(2026 年量产版)
  • 目标间距比(gear ratio):≈1
  • 套准精度:<0.5 μm
  • TSV CD/KOZ:sub-1.5 μm,间距 sub-6 μm
  • TSV 故障率:<100 ppm,修复率 99.9%
  • 整芯片良率:~100%(含智能冗余)

Gear ratio:从离散到连续的设计范式跃迁

论文中一个理论意义最深远、但容易被当作工艺参数略过的概念,是 gear ratio(间距比)

Gear ratio 定义为混合键合间距与顶层金属布线间距之比。当混合键合间距远大于顶层金属间距时(gear ratio >> 1),设计师只能在功能块级别做粗粒度分配--把整个模块分配到上层或下层,因为层间互联太稀疏,不支持更细的粒度。这是一个离散优化问题,计算上可行但远离全局最优。

当混合键合间距缩小到接近顶层金属间距时(gear ratio → 1),两层有源层从电路设计师的视角变成了"一片连续的织物"--逻辑单元可以像在同一层金属上一样跨晶圆边界分布。设计空间从离散变为连续,打开全局协同优化的大门。

Kirin 2026 的 gear ratio 约 2(1.5 μm 键合 / ~720 nm 顶层金属),已经足以支撑关键路径级别的折叠。论文指出未来 TSV 从顶层金属下探到 M6,将释放 30% 以上的高层布线资源,gear ratio 进一步趋近 1。这不只是工艺参数的改善--它改变的是芯片设计的数学性质。

论文还指出,顺序 3D 集成(Sequential 3D,在同一晶圆上逐层加工晶体管)理论上能提供器件级或标准单元级的极致粒度,但目前面临严重的制造瓶颈--特别是下层器件在高温预算下的性能退化。LogicFolding 选择晶圆对晶圆混合键合作为 commercially viable 的中间路线,在粒度和可制造性之间取平衡。

1.5 μm 键合间距已进入量产(台积电 SoIC 当前量产约 6 μm,目标 2029 年 4.5 μm)。论文披露的这个数字印证了此前外界的推论:国产混合键合设备的实际进度,可能领先于公开认知。

Kirin CPU P-core 主频路线图

论文 Table 2 给出了一张从 2023 到 2029 年的完整路线图:

年份 芯片 架构 P-core 频率 状态
2023 Kirin 9000s 平面 2.6 GHz 量产
2024 Kirin 9020 平面 2.65 GHz 量产
2025 Kirin 9030 Pro 平面 2.75 GHz 量产
2026 Kirin 2026 LogicFolding 3.1 GHz Silicon(流片成功)
2027 Kirin 2027 LogicFolding 3.39 GHz Silicon
2028 Kirin 2028 LogicFolding 3.71 GHz Pre-silicon
2029 Kirin 2029 LogicFolding 4 GHz Pre-silicon

2023→2025 三年平面架构只提了 0.15 GHz。切到 LogicFolding 后,2026 一年提了 0.35 GHz,后续保持每年 ~0.3 GHz 的提升斜率。论文投影到 2035 年晶体管密度达到 400+ MTr/mm2。

论文特别强调:2026 年量产版是"保守实现"--LogicFolding 仅选择性应用于关键路径,混合键合间距 1.5 μm,TSV 只下探到顶层金属下一层。未来向三层、四层有源层演进,配合更低温度的键合工艺和 TSV 下探到 M6,设计空间还有大幅释放余地。

三、AI 数据中心:三层 τ 缩减架构

V2 最重磅的新增内容是 Section 5。论文把韬定律从手机芯片扩展到 AI 数据中心--不是简单的场景延伸,而是把华为已有的灵衢总线、Hi-ONE 光互连、3D 堆叠三个独立技术放在 τ scaling 的统一框架里重新解释。

论文给出了两个支撑性事实:AI 系统中超过 80% 的能耗消耗在数据移动上,超过 70% 的系统成本分配给数据存储。这两组数据意味着——降低数据在传输中花费的时间,至少与降低计算时间同等重要。

AI 系统三层 τ 缩减架构
AI 系统三层 τ 缩减架构

第一层:Unified Bus - τ-first 系统互联

传统多节点 AI 架构的数据通路是一叠协议转换:PCIe 连主机 → NVLink/私有互联连机柜内 → Ethernet/InfiniBand 连机柜间 → 软件栈做远程内存访问。每层转换增加延迟、降低可靠性、增加成本。

Unified Bus 的做法是用单一协议覆盖机柜内和跨机柜--点对点、原生内存语义、硬件管理一致性。数据移动被简化为内存语义层的无转换直接传输。

实测结果:端到端远程访问延迟从 TCP/IP 协议栈的数十微秒降到约 100 ns--τ 缩减约 500 倍。这个数字让多机柜 AI 集群在行为上接近"一台 fabric-coherent 的单一机器"(华为内部称之为 System-as-One-Chip)。

与 InfiniBand 的 SHARP 做一个对比:SHARP 在交换机硬件层做 reduction 运算,把集合通信延迟降低 50-80%。UB 的思路不同--它不优化某一层协议的效率,而是消除协议栈层数本身。从系统架构视角,这是从"让协议栈各层更高效"转向"不需要那么多层"。

第二层:Hi-ONE - 近封装光学引擎(首次公开)

当通信延迟被 UB 压到 100 ns 量级,下一个瓶颈转移到物理传输--SerDes 速率到 400 Gb/s 时铜缆尚可,到多 Tb/s 时铜在物理上不再可行:SerDes 触达收缩极限、线缆体积膨胀到不可接受、面板安装不可行、热和供电余量耗尽。

Hi-ONE(High-density Optical-interconnect-Node Engine) 是海思光电推出的近封装光学引擎技术平台。V2 论文中的描述让它看起来是新产物,但实际上 Hi-ONE 有更长的公开历史:

Hi-ONE 产品族与演进时间线

时间 事件 关键披露
2025.09 IFOC 2025 讯石光通信大会 海思光电 CMO 熊前进首次发布 Hi-ONE 平台,宣布 7.2T SiPh NPO 光引擎
2026.01 SPC 超节点大会 7.2T 光引擎已完成通道级性能验证和阶段性可靠性测试,支持 224G NPO 方案
2026.05.28 "xPO 赋能"论坛 详细拆解:VCSEL 3.2T(32×112G)+ SiPh 7.2T(36×224G)双版本
2026.05.29 光通信论坛 熊前进确认星云光互联已在智算超节点组网中规模化应用
2026.07.03 τ scaling 论文 V2 模块带宽从 7.2T 升级为 8T,放入 τ scaling 全栈框架

Hi-ONE 在同一平台下覆盖两款 NPO 光引擎:

版本 带宽 通道配置 技术 用途
VCSEL NPO 3.2T 32×112G VCSEL 阵列 + ORFIC 电芯片 短距(sub-100m)
SiPh NPO 7.2T→8T 36×224G SiN-SOI + III-V 大功率 CW 激光器 中长距(超百米)

关键技术特征(综合 C114 报道与论文 V2):

  • 内置共享集成光源:海思光电自研 III-V 族耐高温 CW 激光器,支持全温高功率输出,无需外部激光源
  • SiN-SOI 硅光平台:单片高密集成有源与无源器件,兼具高集成度与低功耗
  • 线性驱动方案:不用重型 DSP,改用模拟均衡增强驱动器 + TIA,配合 UB 协议容忍更高误码率。800G SR8 LPO 版本将传输时延锐减 90% 以上
  • StarSensor 星云智检:分钟级链路脏污/虚接检测,厘米级故障定位精度--现网数据表明大模型训练故障多来自光链路,这项功能直指痛点
  • 全场景适配:可插拔/板载/共封装均可,多协议支持(SR/DR/FR)

从论文 V2 视角看 Hi-ONE 的定位

这个跨层折中有深意。传统光模块设计追求物理层最低误码率,用 DSP 做重度信号补偿。Hi-ONE 在协议层面主动放松 BER 要求,换取物理层的功耗和复杂度下降,这是 τ scaling 方法论在"协议层 × 物理层"跨层优化的具体体现。Hi-ONE 不是一个独立的光学器件,而是 UB 系统的一个有机组件。

但行业信息揭示了另一个面向:Hi-ONE 在 2025 年 9 月就已作为独立的 NPO 光引擎产品发布,且在 2026 年 5 月确认"已在智算超节点组网中规模化应用"。这意味着论文 V2 中 8T 的数字,可能不是论文里的理论投影,而是已进入实际部署的产品规格的最新迭代。论文把一个已有产品重新放入 τ scaling 框架,赋予了它新的理论定位--从"海思光电的 NPO 产品"升级为"τ scaling 架构中的光学层"。

与华工科技的 3.2T NPO 光引擎、立讯的 NPO 产品矩阵相比,Hi-ONE 的差异化在于:它是唯一明确声明与系统互联协议(UB)协同设计的光学引擎,而不是适配既有协议的独立模块。在 ODCC 2026 夏季全会上,华为同时拆解了 1024-lane NPO 的工程挑战--Hi-ONE 与那些讨论是同一条路线的两个侧面。

第三层:3D Folding - 解决 N2-vs-N 困境

V2 提出了一个简洁的几何论证,解释为什么 2.5D 封装必然遇到天花板。这个论证不依赖任何工艺参数,纯粹是拓扑约束--因此比"光刻太贵"或"物理极限"这类经验性论断更有说服力。

N2-vs-N 困境。在 2.5D AI 芯片中,假设芯片边长为 N:

  • 计算能力 ∝ N2(面积)
  • 带宽 / 互联 / 电源 ∝ N(周长--HBM 堆栈和 SerDes 排在芯片边缘)

面积增长比周长快。芯片越大,"喂不饱"计算单元的带宽缺口越宽。这不是 transistor-level 改善能闭合的--它是一个拓扑约束。

这个论证的力量在于它的普适性:无论晶体管多快、HBM 多密,只要带宽资源排在芯片边缘(2.5D fan-out),就逃不出 N2-vs-N 的剪刀差。

3D Folding 的解法:把边缘资源迁移到表面。电源通过背面供电(BSPDN)从底部进入,HBM 通过混合键合叠在逻辑层上方,光学 I/O 通过近封装 Hi-ONE 放在封装表面。一旦这些资源从"边缘"迁移到"表面",它们的缩放规律从 ∝ N 变为 ∝ N2--与计算能力同步增长。封装不再是"逻辑芯片周围一圈内存和 SerDes",而是"一个垂直集成的栈,内存、互联、电源、逻辑全部以 N2 缩放"。

Ascend 路线图

论文把 AI 加速器的演进放在 τ scaling 时间线上(芯片代号和年份来自 V2 论文;灵衢版本和算力规格来自华为 2025 年全联接大会公开信息):

  • Ascend 910C(2025):Atlas 900 超节点,384 卡,灵衢 1.0
  • Ascend 950(2026 Q4):Atlas 950 超节点,8192 卡,灵衢 2.0,FP8 8 EFLOPS
  • Ascend 990(~2030):首次在 AI 加速器中引入 LogicFolding,3D Folding 成为主流
  • 2030→2035:硬件集成度增长 >100 倍

关键信号:LogicFolding 在 2026 年先落地移动端验证,~2030 年才进入 AI 加速器。AI 芯片的散热条件比手机宽松,但芯片面积大得多,热密度管理复杂度也更高。这个时间差说明华为对 LogicFolding 的扩展节奏是谨慎的--先在功耗受限的场景验证,再向更大规模的计算芯片推广。

四、逻辑与存储的再融合

V2 Section 6 提出了一个容易被忽略但影响深远的判断:逻辑与存储正在从"刻意解耦"走向"再融合"

8086 时代,行业刻意通过标准化内存总线把处理器和存储解耦--两个产业各自独立缩放,形成了庞大的存储市场。处理器按摩尔定律快速迭代,存储按自己的节奏(DDR 代际 → HBM)发展,两者通过标准化接口松耦合。

AI 时代正在逆转这个趋势。HBM、混合键合、3D 堆叠 SRAM 都是同一趋势的症状:数据移动的成本已经追上甚至超过了计算本身。论文引用的数据--大型 AI 集群中 >80% 能量消耗在数据移动上,>70% 系统成本分配给数据存储--量化了这个结构性转变。

论文判断:供应链话语权正在从逻辑厂商向存储和封装厂商转移。这个判断的落点不在某一家公司,而在产业结构的变迁--当"数据在哪里"比"算在哪里"更决定系统效率时,控制数据移动路径的环节(存储、互联、封装)的战略权重自然上升。

这对供应链投资逻辑有直接影响。如果逻辑-存储的物理融合是不可逆的结构趋势,那么 HBM、先进封装、混合键合设备的战略权重将持续上升--这不是周期性波动,而是半导体价值链的结构性重排。

五、诚实的开放挑战

论文 Section 7 列出五个开放挑战。这一节的价值不在于列出了问题--任何路线图都有"风险因素"--而在于措辞的直接性。论文没有回避 τ scaling 的结构性局限。

EDA 工具链断层

现有 EDA 为 2D 设计--面积、时序、功耗沿三条独立轴优化,系统 τ 作为副产品浮现。全尺度 LogicFolding 要求工具链把多层堆叠的有源层当作单一连续设计实体处理,在 cell 级粒度做跨层布局和时序闭环。跨层路径上的垂直互联寄生参数、TSV 排除区(KOZ)、晶圆间工艺变异的交互方式,是传统 2D 训练的工具不覆盖的。

论文承认"初步内部工具已有可用结果",方法论细节将在未来几个月发表。但更关键的信号是论文的呼吁:"a τ-native toolchain - open, multi-physics, and 3D-native - is the single most important enabling investment for the next decade."(τ-native 工具链--开放、多物理场、3D 原生--是下一个十年最重要的基础投资。)这不是产品宣传,而是向整个 EDA 行业发出的信号。

晶圆间工艺变异

LogicFolding 键合的晶圆可能来自不同批次甚至不同节点。晶圆间的 Vth(阈值电压)、驱动电流、互连 RC 变异显著大于晶圆内变异,冲击最大的是时钟分布和 hold-time margin。智能冗余、自适应补偿、τ-aware 签核流程是必要的应对手段--但这些都是工程层面的持续投入,不是一次性解决的理论问题。

垂直互联开销

每个混合键合点和 TSV 都有有限的电阻和电容代价。LogicFolding 必须逐层证明一个简单不等式:键合后 τ(缩短的走线延迟)> 键合开销 τ(垂直互联引入的 RC)。论文指出移动端关键路径和存储已过了这个阈值,但不同工作负载的阈值不同,边界会随键合间距缩小而移动。

能耗:时间定律的局限

这可能是最核心的约束。论文直言:"τ is a time law, not a joule law."(τ 是时间定律,不是焦耳定律。)一个超节点如果 10 倍快但 10 倍耗能,不违反任何缩放原理,但超出电网容量。

τ scaling 因此需要一个能源配套方案(energy companion):内存语义互联消除协议栈开销、近封装/共封装光学降低 pJ/bit、背面供电减少 IR drop 损耗、存内/近存计算缩短数据搬运距离、以及在数据中心尺度做 DVFS(把 τ 余量转化为功耗节降--与手机用 DVFS 延长电池寿命的原理相同,只是尺度放大到吉瓦级)。论文特别指出:τ headroom 本身在被分配到节能方向时,就提供了能源余量。这是一个正反馈--τ 优化创造的余量可以反哺能源约束。

基准测试

现有基准(Linpack、MLPerf、SPEC)为"单一标量"时代设计。τ scaling 产业需要 τ-profile 基准--向量化的指标,暴露每一层的 dominant τ 和剩余余量。论文的判断简短但精确:dominant τ 所在的层,就是下一个投资方向。

六、应用加速因子

论文首次给出了不同应用领域的 τ 缩减速率分类:

应用 年缩放因子 α 逻辑
移动设备 ~1.3 功耗和散热约束
自动驾驶 ~1.5 安全关键实时性
AI Token 生成 最高 ~10 吞吐量直接等于经济价值

τ 的代际规则是 τ_{n+1} = τ_n / α。α 越大,每代 τ 缩减越多。移动端的 α ≈ 1.3 意味着每年约 23% 的 τ 缩减;AI 的 α 最高到 10 意味着某些维度上一年可以缩减 90%。

这个分类解释了为什么华为优先把 AI 系统层面的 τ 缩减投入做重--灵衢、Hi-ONE、超节点--而不是在其他场景上分散。AI Token 吞吐的年缩放速率是移动端的近 8 倍,每一层 τ 缩减的边际回报都远高于其他应用。这组数字也回答了一个外部观察者常问的问题:"华为为什么不把 LogicFolding 先用在 AI 芯片上?"答案藏在 α 的差异里--AI 系统的 τ 缩减窗口大得多,不依赖 LogicFolding 单一技术,灵衢 UB 和 Hi-ONE 的系统级收益已经足够显著。LogicFolding 进入 AI 加速器要等到 ~2030 年,因为那时 UB 和 Hi-ONE 的边际 τ 收益开始递减,需要器件层面的新一轮折叠来接力。

七、六年沉淀,十年前瞻

论文 Section 8 给出了韬定律的阶段性总结。2020 年 5 月到 2026 年 5 月,华为半导体设计并量产了 381 颗芯片,覆盖移动、AI、汽车、工业和基础设施市场。论文用三个层级的实测结果支撑 τ scaling 的有效性:

  • 器件和电路层:晶体管密度从 155 向 400+ MTr/mm2 推进
  • 芯片层:LogicFolding 在固定工艺节点上验证了关键路径频率、能效、密度的持续提升
  • 系统层:UB 和 Hi-ONE 验证了数百微秒级通信 τ 可压缩到数百纳秒,多机柜 AI 集群可表现为单一 coherent 机器

381 颗芯片这个数字本身就是一种论证方式。韬定律不是论文里的理论模型--它是六年里 381 颗量产芯片反复验证的方法论。从统计角度看,如果 τ scaling 只在少数产品上有效,可以归结为个案;381 颗芯片覆盖多个行业,说明方法论的可复制性已经过了工业级检验。

八、判断

对半导体演进框架的意义

摩尔定律建立的是一个"单变量缩放"框架--晶体管更小 → 一切更好。这个框架的简洁性是它统治行业六十年的原因。但它也有代价:器件、电路、芯片、系统四层各自独立优化,系统级 τ 作为没人负责的"残差"浮现。

Dennard 缩放曾在器件和电路之间建立了桥梁--"等比缩小可维持恒定电场"让器件物理学家和电路设计师有了共同语言。Dennard 在 2005 年左右失效后,这座桥断了。τ scaling 试图建一座更大的桥--不是连接相邻两层,而是覆盖器件到系统的全跨度。它能否成功,取决于未来五到十年里有多少产业参与者真的采用 τ 作为跨层协作的度量衡。

对竞争格局的实际影响

对华为自身:论文把 Ascend 路线图放到了 2035 年--990 引入 LogicFolding、100× 硬件集成度提升。灵衢 UB 的 ~100 ns 延迟和 Hi-ONE 的 8 Tb/s 模块带宽,为评估华为超节点的实际性能提供了硬数据。

对半导体设备产业:1.5 μm 混合键合间距已进入量产芯片。国产键合设备(北方华创 Qomola HPD30、拓荆 W2W 量产型号)的验证进度值得持续跟踪--论文的披露间接确认了这条产线的成熟度。

对存储产业:逻辑-存储再融合的判断如果成立,HBM 和先进封装的战略权重将持续上升。这不只是存储厂商的利好--它意味着存储和封装不再是"配合逻辑芯片的配角",而正在成为系统性能的决定因素。

对出口管制的长期含义:论文明确说"competitive performance no longer requires perpetual residence on the leading edge of lithography"。如果这个判断在 5-10 年内被产业实践证实--即不依赖最先进光刻也能持续提升系统性能--那么以限制先进制程获取为核心的出口管制策略,其有效性会被系统性削弱。

九、业界最前沿对比:追赶、创新与路线分歧

韬定律不是在真空中诞生的。全球半导体行业都在向 3D 和系统级优化转型,但各家的路径选择有本质差异。这一节把华为的进度放在全球坐标系里,逐项对比。

混合键合间距:华为已经领先,但方式不同

混合键合间距是 3D 集成最硬的指标。当前全球进度:

厂商 技术 键合方式 当前量产间距 路线图目标
华为 LogicFolding W2W 1.5 μm 向 sub-1 μm / gear ratio ≈1 演进
台积电 SoIC-X D2W ~6 μm 4.5 μm (2029)
英特尔 Foveros Direct D2W sub-10 μm 未见明确 sub-5 μm 路线图
三星 I-Cube4 / X-Cube D2W ~10 μm 级 跟随策略

这个表需要一个关键注释:W2W 和 D2W 是不同的工艺路线,间距数字不能直接跨类比较。 根据 Yole Group 分析师在 ECTC 2026 的分类,当前行业量产基准是:W2W 1-2 μm,D2W 6-9 μm。W2W 天然能达到更细间距--整片晶圆对准精度远高于逐 die 放置。华为 1.5 μm 处于 W2W 量产范围内的偏细端,但这本身不是突破性数字。

台积电选择 D2W 不是因为做不到更细 W2W,而是客户产品需要异构集成--不同尺寸、不同节点的 die 灵活组合,D2W 支持这种灵活性而 W2W 要求两片晶圆尺寸完全匹配。

华为的真正创新点不在间距数字,而在于把 W2W 用于单 SoC 内部的 logic-on-logic 堆叠。 W2W 混合键合此前主要用于存储堆叠(HBM)和图像传感器--这些场景的热密度远低于逻辑层。华为把 W2W 用在同一颗 SoC 的有源逻辑层之间,并同时解决热管理、时钟分布和 cell 级关键路径折叠的设计方法论问题。这才是论文 V2 中真正没有先例的工作。

实验室层面,imec 在 ECTC 2026 上展示了 200 nm W2W 间距(非量产),CEA-Leti 展示了 1 μm D2W 间距(良率仅 22%,非量产)。量产与实验室之间的差距依然显著。

混合键合间距:全球厂商对比
混合键合间距:全球厂商对比

背面供电:华为尚未进入,业界已量产

背面供电网络(BSPDN)把供电线路从晶圆正面移到背面,让正面空间完全用于信号布线。这是 2nm 及以下节点的必备技术。

厂商 技术 状态
英特尔 PowerVia 18A 已量产(2025)
台积电 Super Power Rail (A16) 2026 年底量产,复杂度高于 Intel
三星 BSPDN (SF2Z) 2027 年量产
华为 - 论文未提及

论文在描述 3D Folding 时提到 backside power,但作为未来架构方向,而非已有成果。在麒麟 2026 的 LogicFolding 实现中,论文没有提及背面供电。

这意味着在器件层的 τ 缩减工具箱中,华为还缺少一个重要武器。英特尔 18A + PowerVia 实测在同等工作电压下频率提升 25%,或功耗降低 36%。如果华为未来在 LogicFolding 叠加 BSPDN,理论上还有一层额外的频率/功耗改善空间--但何时能获得这个能力,取决于国产先进制程的背面供电工艺成熟度。

系统级互联:两种哲学的分野

在 AI 数据中心的系统级互联上,华为和 NVIDIA 代表了两种截然不同的哲学。

NVIDIA 的路线:持续扩展 NVLink 域(NVL72 → NVL144 → NVL576 → NVL1152),在 scale-up 场景逐步引入 CPO(Rubin Ultra NVL576 已用 CPO 做跨机柜光互联,Feynman NVL1152 将全面 CPO),协议栈分层清晰:NVLink(scale-up)+ InfiniBand/Ethernet(scale-out)。

华为的路线:Unified Bus 用单一协议覆盖从芯片到机柜到集群的全尺度,消除协议转换开销。UB 的 ~100 ns 远程访问延迟,在量级上接近 NVLink 机柜内延迟,但要覆盖远得多的物理距离。

分歧点:NVIDIA 的分层协议栈允许每一层独立优化(NVLink 追求极低延迟,Ethernet 追求高带宽和标准化经济性),代价是跨层转换开销。华为的 UB 用统一语义消除转换开销,代价是协议必须同时满足 scale-up 的极低延迟和 scale-out 的大规模扩展性。哪条路线最终更优,取决于 UB 在数千卡规模下能否维持 ~100 ns 量级的延迟--这目前是论文数据,尚需真实部署验证。

光学互联:CPO vs NPO 的路线竞赛

华为 Hi-ONE 和 NVIDIA Spectrum-X Photonics 代表了光学互联的两种工程路径:

维度 NVIDIA Spectrum-X Photonics 华为 Hi-ONE
定位 Scale-out CPO 以太网交换机 Scale-up 近封装光学引擎
互连对象 交换机之间(spine-leaf) 芯片之间(UB fabric 内)
带宽 400 Tb/s 交换容量 8 Tb/s 每模块
信号处理 传统 DSP(可编程) 线性驱动(模拟均衡)
协议层 以太网 + RoCEv2 UB 原生内存语义
量产状态 已宣布 in production(5/31) 论文未给出量产时间

NVIDIA 的 CPO 用于 scale-out 网络--让以太网交换机突破电信号面板密度限制。华为的 Hi-ONE 用于 scale-up fabric--让 UB 协议的物理传输从铜线迁移到光。两者不是直接竞争,而是各自在系统不同层级解决光学互联问题。

更深层的差异是信号处理哲学。NVIDIA 选择传统可编程 DSP,成熟方案但功耗较高。华为选择线性驱动,功耗更低但信号保真度依赖 UB 协议的容错设计。这是 τ scaling 方法论的具体体现--为了总系统 τ 最优,在物理层放松 BER 要求换取功耗下降。但也意味着 Hi-ONE 不能独立使用,必须与 UB 协议栈协同设计。

Sequential 3D:真正的天花板在哪

LogicFolding 用 W2W 混合键合实现了两层有源逻辑层的堆叠,间距 1.5 μm。但论文自己承认,Sequential 3D(S3D)--在同一晶圆上顺序加工多层晶体管--理论上是更优解。

S3D 的优势:层间互联密度比 W2W 混合键合高 3-4 个数量级(光刻级精度 vs 键合精度);不需要两片晶圆;理论上不受键合间距限制。

S3D 的瓶颈:下层器件在高温预算下的性能退化--上层晶体管加工温度必须低于 ~600°C;imec/Leti 的 CoolCube 方案在实验室验证了 logic-on-logic 堆叠,但距离量产仍有显著距离;全球范围内 S3D 量产时间表在 2030 年之后。

论文的判断:LogicFolding 的 W2W 混合键合是 commercially viable 的中间路线。一旦 S3D 工艺成熟,设计方法论(关键路径折叠、gear ratio 优化)可以平滑迁移。

LogicFolding 的理论天花板不取决于键合间距,而取决于热管理。两层有源逻辑层的功耗密度远高于存储堆叠--imec 的模拟显示 4 层 HBM-on-GPU 在不做极端优化时温度可达 142°C。逻辑层堆叠到 3-4 层时热密度问题会更严重。论文对此的回应是 thermal-aware partitioning,但没有给出具体方案。

LogicFolding 天花板路线图
LogicFolding 天花板路线图

天花板总结:

  • 短期(2026-2028):两层有源层,关键路径选择性折叠。密度 +55%,功耗 -41%
  • 中期(2029-2031):三层以上有源层,TSV 下探 M6,gear ratio →1。密度 400+ MTr/mm2
  • 长期(2032-2035+):如果 S3D 突破热预算瓶颈,层数不再受限于键合;如果未突破,停留在 3-4 层 W2W

技术路线分歧:三个待回答的问题

问题一:系统级优化能否永久替代先进制程?

韬定律的核心论点是 competitive performance no longer requires leading-edge lithography。但这个论点有一个前提:系统级 τ 缩减的边际收益不递减。如果 UB 延迟压到 100 ns 后进一步压缩变困难,或 Hi-ONE 带宽密度遇到物理极限,系统级优化需要器件层面的新一轮突破来接力。论文把 Ascend 990(~2030)引入 LogicFolding 的时间点安排在 UB/Hi-ONE 边际收益开始递减的时刻--这不是巧合。

问题二:EDA 生态谁能先跑通?

LogicFolding 需要 3D-native、多物理场、cell 级粒度的 EDA 工具链。论文承认华为只有初步内部工具。全球范围内,Synopsys / Cadence 在 2D EDA 统治地位稳固,3D IC 工具仍在早期;台积电的 3DFabric Alliance 在构建自己的 3D 设计生态;北大团队发布了真 3D EDA 原型。谁先拥有成熟的 τ-native 3D EDA 工具链,谁就能加速 LogicFolding 类技术的设计闭环。这是华为路线上的最大不确定性。

问题三:热管理是最终的物理天花板吗?

两层有源逻辑层的热密度已接近手机散热极限。AI 加速器散热条件更宽松(液冷、更大芯片面积),但 LogicFolding 进入 AI 芯片并堆叠到 3-4 层时,功耗密度可能超过 100 W/cm2。论文给出的方案是 thermal-aware partitioning 和 avoid folding high-power circuits--但这意味着 LogicFolding 不是全域应用,而是热约束下的选择性应用。这个约束是否会在 4-8 层堆叠时变成不可逾越的物理墙,目前没有答案。

需要持续跟踪的验证点

  1. Kirin 2026 量产版实测:论文标注为 Silicon(流片成功),2026 年秋季上市后的实际散热、良率、日常使用功耗是第一轮外部验证
  2. Ascend 950 超节点实际部署:2026 Q4 上市后的训练性能、推理吞吐、稳定性数据--尤其是 UB 远程访问延迟在真实工作负载下是否达到论文宣称的 ~100 ns
  3. Hi-ONE 量产时间:论文未给出 Hi-ONE 的具体量产时间表--这是一个需要跟踪的缺口
  4. EDA 工具链开放进展:论文呼吁开放协作,但具体合作模式和开放范围尚未明确

信源说明:本文基于何庭波论文《A Time Scaling Theory for Multi-Layer Electronic Systems》V2 版(ChinaXiv:202605.00224v2,2026-07-03,已被《中国科学杂志》录用)。Kirin 2026 实测数据、gear ratio 理论、Hi-ONE 规格参数、N2-vs-N 几何论证、Ascend 路线图为论文 V2 首次披露。Ascend 算力规格和灵衢版本来自华为 2025 年全联接大会公开信息。Hi-ONE 产品细节来自海思光电在 IFOC 2025(2025-09)、SPC 超节点大会(2026-01)及"xPO 赋能"论坛(2026-05)的公开演讲,经 C114 通信网报道。业界对比数据来自台积电 2026 北美技术论坛、Intel Foveros Direct 技术简报、IEEE Spectrum / ECTC 2026 报道、TrendForce 及 Tom's Hardware。不构成投资建议。文中数据截至 2026 年 7 月 3 日。