拆解 HPE AI 工厂：计算、存储、软件和 Cray 的整合实验

2026 年 6 月的 HPE Discover 大会上，CEO Antonio Neri 说了一句话：

「AI 工厂只做一件事：将电能转化为 Token。」

这句话把 AI 基础设施从「数据中心」重新定义为「工厂」——一个有输入（电力）、有产出（Token）、有良品率（利用率）、有产线（计算-网络-存储-软件四层）的工业系统。

但工厂需要设备。HPE 在 Discover 2026 上发布了什么设备？哪些是全新的，哪些是换了包装？Cray 超算的遗产在哪儿？这篇文章把 AI 工厂的设备布局拆开看。

AI 工厂的四层架构

HPE 在 Discover 2026 上把 AI 工厂划成四个部署层级和四个技术层。

部署层级（从大到小）：

层级	场景	典型客户
主权部署	国家级 AI 基础设施	政府、国防、科研机构
服务商	公有云 / AI 推理服务商	Vultr、CoreWeave、新兴 GPU 云
企业	私有云 AI	大型企业、金融、医疗
边缘	分布式推理	分支机构、工厂、门店

技术层：计算 → 网络 → 存储 → 软件。以下逐层拆解。

计算层：从通用服务器到 AI 工厂产线

ProLiant DL 394 Gen 12：Agent 专用服务器

Discover 2026 上唯一全新发布的计算产品。HPE 官方定位是「专为智能体 AI 和长上下文工作负载设计」。

这款服务器的设计意图很清楚：AI Agent 工作负载跟传统企业应用不同——它需要处理长上下文（几十万 Token 的对话历史），需要频繁的向量检索，需要多模型协同（一个 Agent 可能同时调三个模型）。这意味着 CPU-GPU 之间的数据搬运比传统推理更密集，内存带宽要求更高。

DL 394 Gen 12 的「394」编号在 ProLiant 家族里是个新序列——已有的 DL 360（1U 通用）、DL 380（2U 通用）、DL 580（4U 多路）都没有「394」这个型号。HPE 开了一个新产线专供 Agent 负载。

未公开的规格：CPU 型号、GPU 槽位数、最大内存、功耗、液冷支持——这些关键参数在 Discover 2026 的公开报道中均未披露。这是一个信息缺口。相比之下，Dell PowerEdge XE9680（8 GPU 槽位）和 Supermicro GPU SuperServer 都在各自的发布会上公布了完整规格表。

私有云 AI：256 GPU 的多节点推理

HPE 的「私有云 AI」不是单台服务器，而是一个预集成的 AI 平台。Discover 2026 上最关键的性能声明是：

训练 GPU 需求降至上一代 Blackwell 平台的四分之一
推理成本降至每百万 Token 的十分之一
支持 256 块 GPU 跨多节点推理
统一 API 网关：一个接口访问前沿模型（GPT、Claude、Gemini）和开源模型（Llama、DeepSeek）
共享缓存：降低首个 Token 的生成成本

训练 GPU 缩到四分之一意味着什么？如果一个任务原来需要 1024 块 GPU，现在可能只需要 256 块。这个 4 倍效率提升不是 HPE 的魔法——HPE 不自研 GPU，它用的是 NVIDIA 的芯片。代际效率跃迁是 NVIDIA 的工程成果（Blackwell 到 Rubin）。HPE 做的是系统集成优化：网络拓扑减少等待、存储延迟降低 I/O 瓶颈、液冷提升稳定性。这些是边际改善，不是 4 倍的来源。

NVIDIA AI Computing by HPE：超大规模交付

HPE 不自研 GPU，但它能整机和交付 NVIDIA 最新的 GPU 系统。Discover 2026 上的案例：云服务商 Vultr 通过「NVIDIA AI Computing by HPE」产品组合部署 GB300 NVL72 系统，同时整合 NVIDIA Spectrum-X 以太网和 HPE 液冷技术。

这个案例说明：HPE 在大规模 AI 集群交付上扮演的角色是「系统集成商 + 基础设施运维商」——NVIDIA 出芯片和网络，HPE 出服务器、液冷、运维软件和交付能力。

这个角色跟 Dell、Supermicro 有重叠。区别在于 HPE 还带 GreenLake 的按需消费模式和 Juniper 的网络能力——Dell 没有 Juniper，Supermicro 没有 Mist AI。

计算层的缺口

缺口	影响
DL 394 Gen 12 完整规格未公开	客户无法直接对标 Dell XE9680、Supermicro
标准 ProLiant Gen 12 全系列	Discover 只亮相了 394，其他型号（360/380/580）的 Gen 12 更新未提及
GPU 依赖 NVIDIA	HPE 没有自研 AI 加速芯片，产品定价权和差异化受限
AMD/Intel AI 加速器支持	公开报道中未提及对 AMD Instinct 或 Intel Gaudi 的支持

存储层：Alletra MPX 10000

一个新存储范式？

Alletra MPX 10000 在 Discover 2026 之前已经发布（2026 年 5 月在中国首发），但 Discover 上它被重新定位为「AI 工厂的存储层」。

核心规格：

全解耦架构：计算节点（存储控制器）和数据节点（磁盘/SSD 柜）分离，独立扩展
文件 + 对象原生统一：同一套系统同时支持 POSIX 文件访问和 S3 对象访问，不需要两个存储池
内联数据智能：数据写入时实时提取元数据（标签、分类、实体），不需要额外的索引服务
原生 MCP 协议：AI Agent 可以通过 MCP（Model Context Protocol）直接检索存储中的数据
NVIDIA 认证存储：通过 NVIDIA-Certified Storage 验证
100% 数据可用性保障

HPE 声称比自建环境快 7-12 倍的「价值实现时间」——这个指标的背景是：传统企业存储需要数月的配置和调优才能投入生产，Alletra MPX 做到开箱即用。

为什么 MCP 协议支持很重要

MCP（Model Context Protocol）是 Anthropic 推出的开放协议，让 AI 应用以标准方式访问外部数据源。Alletra MPX 10000 在存储层原生支持 MCP，意味着 AI Agent 不需要通过中间应用层访问数据——它可以直接从存储检索。

这在架构上是一个重要变化。传统数据访问路径是：AI Agent → 应用 API → 数据库 → 存储。有了 MCP 后变成：AI Agent → MCP → 存储。少了一层中间件，延迟更低，架构更简单。

Gartner 预测到 2029 年全球生成式 AI 所需存储容量将超过 2 EB。Alletra MPX 10000 是 HPE 对这个市场的第一张牌。

存储层的竞品格局

厂商	产品	特点
HPE	Alletra MPX 10000	全解耦、MCP 原生、NVIDIA 认证
Pure Storage	FlashBlade // EXA	AI 优化、Evergreen 消费模式
NetApp	ONTAP AI	AFF A800 + NVIDIA DGXFoundry
Dell	PowerScale	文件存储 + 对象存储
VAST Data	Universal Storage	全闪存、解耦架构

HPE 的差异化：MCP 原生支持是独特的。其他厂商的存储产品目前还需要通过应用层才能跟 AI Agent 交互。但这个优势能维持多久取决于 MCP 协议的普及速度——如果 MCP 成为行业标准，其他存储厂商会快速跟进。

软件层：从硬件管理者到 AI 工厂「操作系统」

HPE 的软件在 Discover 2026 上集中亮相，可以分成三层：

第一层：基础设施运维

平台	来源	功能
GreenLake Intelligence	HPE 自研	AI 驱动的全域运维（网络+计算+存储+云）
Marvis AI	Juniper (Mist)	自然语言交互式网络运维
Mist AI	Juniper	无线/有线网络自动化
Aruba Central	HPE	园区网络管理
Apstra	Juniper	数据中心网络配置自动化

这五个平台正在被整合到 GreenLake Intelligence 一个界面下。整合的最终目标是：运维人员面对的不是五个控制台，而是一个 AI 助手（Marvis），可以用自然语言提问「为什么推理集群延迟高了 30%」并自动执行修复。

但整合的工程难度极高。五个平台来自三个不同的收购（Juniper、Mist、Aruba），技术栈不同、数据模型不同、API 不同。HPE 目前做到的是「统一控制台」（UI 整合），距离「统一 AI 引擎」（数据层整合）至少还有 2-3 年。

第二层：混合云管理

CloudOps 是 Discover 2026 上新推出的统一混合运营层，把虚拟化、数据保护和云管理整合在一起。这直接瞄准了 VMware 客户的迁移需求——Broadcom 收购 VMware 后大幅涨价，大量企业在寻找替代方案。

HPE CloudOps 的卖点：一个平台同时管理私有云（HPE GreenLake）和公有云（AWS/Azure/GCP），加上虚拟化管理（替代 vCenter）和数据保护（Zerto 提供状态回滚）。

Unleash AI 计划已覆盖 60+ 家验证合作伙伴，形成生态网络。

第三层：Agent 治理

这一层在 Discover 2026 上最被低估。HPE 在私有云 AI 里内置了一个「治理型智能体层」：

零代码 Agent 注册：基于任意框架（LangChain、CrewAI、OpenAI Agents SDK 等）的 Agent 可以无需修改代码直接注册
三层身份模型：用户身份 → Agent 身份 → 组织身份，每一层独立权限
NVIDIA Open Shell：提供策略隔离的 Agent 运行环境（沙箱）
NVIDIA NeMo Cloud：提供受治理的 Agent 工作流蓝图
Zerto 集成：Agent 出错时实现干净状态回滚——相当于给 Agent 操作「撤回」的能力

这三层合在一起构成了一套「Agent 基础设施操作系统」的雏形。

软件层的核心挑战

HPE 历史上的软件能力不强。Autonomy（$111 亿收购 → 减记 $88 亿 → 拆分）是行业里最大的软件踩坑案例之一。Micro Focus（企业软件）整体剥离。Vertica 保留但边缘化。

现在的软件版图全部集中在基础设施运维——不做应用、不做 AI 框架、不做大模型。这个定位比 Dell（被 VMware/Broadcom 困住）和 Cisco（买了 Splunk 做可观测性）更聚焦。

但「五个平台整合到一个 AI 引擎」是一个 HPE 历史上从未成功做到过的工程。这需要的不只是技术能力，还有组织协同——Juniper 的工程师、Aruba 的工程师、Mist 的工程师要在同一个代码库里合作。

Cray/HPC：技术转用还是品牌消失？

Cray 收购回顾

2019 年 HPE 以 $13 亿收购 Cray，当时业界解读为 HPE 在超算领域跟联想、富士通正面竞争的战略举措。Cray 带来的核心资产：

Cray EX 超级计算机架构：模块化、液冷、高密度
Slingshot 互联：专为 HPC 工作负载设计的高带宽、低延迟网络
Cray 编程环境：超算领域的开发工具链
客户关系：美国能源部（DOE）、橡树岭（ORNL）、劳伦斯利弗莫尔（LLNL）等

Discover 2026 上 Cray 的位置

Cray 品牌在 Discover 2026 上仍然存在——hpe.com 有独立的「HPE Cray Supercomputing」产品线。但：

没有新的超算系统发布。没有宣布新的 Exascale 项目
Cray 技术被折叠进 AI 工厂架构。液冷技术用于 GB300 NVL72 部署，高密度机柜设计用于「主权 AI」层级
没有 Cray 专题演讲。Cray 被整合进 AI 工厂叙事后，没有独立的产品路线图宣讲

Slingshot vs Juniper QFX：两条网络路线

HPE 现在有两套数据中心网络技术：

维度	Juniper QFX	Cray Slingshot
设计目标	企业 AI、通用数据中心	HPC、超算
协议	以太网 / RoCEv2	Slingshot 专属协议 + 以太网兼容
典型场景	LLM 训练集群	科学计算、气候模拟、分子动力学
容量	QFX5240: 102T	Slingshot 11: 13.6Tbps/节点
客户	企业、云服务商	国家实验室、大学

HPE 没有在 Discover 上给这两套网络技术的产品路线图做对照表。这是一个整合风险：两个产品线在技术上高度重叠，但目标客户不同。长期看，HPE 可能需要做出选择——是在 HPC 场景保留 Slingshot，还是把它也整合进 Juniper 的以太网路线？

HPC → AI 的技术转用

Cray 技术进入 AI 工厂场景的具体路径：

液冷：Cray 的直接液冷（DLC）技术用于 GB300 NVL72 等高功耗 GPU 系统的散热
高密度机柜：Cray EX 的机柜设计经验用于「主权 AI」部署层级的硬件设计
系统级集成：Cray 几十年做大规模科学计算系统的经验，直接适用于万卡 AI 集群的系统集成

这个「技术转用」的逻辑成立——超算和 AI 工厂在基础设施层面有高度重合（高功耗、高密度、液冷、大规模互联）。但传统 HPC 客户可能会担忧：HPE 把 Cray 的注意力转向了企业 AI，传统科研超算的投入会不会缩减？

Frontier（橡树岭国家实验室，全球首台 Exascale 系统）仍然是 Cray 工程遗产的旗舰展示品。但 Discover 2026 上没有宣布 Frontier 的后续系统——这也许只是时间问题（Exascale 系统的采购周期是 5-7 年），但沉默本身就是信号。

能源层：电 → Token 的工程挑战

Neri 在 keynote 里用了一个数据：美国到 2028 年将面临 19 吉瓦的电力缺口。预计到 2031 年，数据中心将占美国总用电量的近一半。

HPE 在能源方向的动作分两层：

第一层：液冷技术。HPE 有自己的液冷方案（源自 Cray 的 DLC 技术加上自研的机柜级液冷），在 Vultr + GB300 NVL72 的部署案例中直接使用。液冷不是可选项——GB300 NVL72 单机架功耗超过 120 千瓦，风冷理论上无法支撑。

第二层：能源规划合作。HPE 与西门子能源合作，用 HPE 的 AI 工具加速电网工程设计和项目建设。这不是 HPE 自己做电力基础设施——是卖 AI 工具给电力公司。

HPE 在能源方向的定位清晰但不深入：它做液冷硬件（有产品），做 AI 辅助电网设计（有合作），但不碰发电和输电（不是电力公司）。Neri 说「AI 工厂是将电转化为 Token 的装置」，但 HPE 本质上只是 Token 转化机器的供应商，不是电力供应商。

设备布局的六个缺口

把 AI 工厂的设备布局放在一起看，有六个值得关注的缺口：

1. DL 394 Gen 12 规格缺失。 一台定位「Agent 专用」的服务器没有公开 GPU 槽位、内存带宽、功耗——客户无法直接对标 Dell XE9680（8 GPU）或 Supermicro GPU SuperServer。

2. 标准服务器更新断档。 Discover 2026 只亮相了 DL 394 一个新型号。ProLiant 家族的 DL 360/380/580 是否会有 Gen 12 更新？如果只有 394 一个型号，那 HPE 的标准服务器产品线在 Gen 12 这一代是缺位的。

3. Cray 新超算系统零发布。 Frontier 之后的下一代 Exascale 系统没有消息。超算社区的采购周期 5-7 年，但如果 HPE 不在 2026 年宣布后续系统，联想和 Atos 会填补空白。

4. 液冷方案没有独立产品化。 HPE 的液冷技术在 Vultr 案例里出现了，但 Discover 2026 没有发布独立的液冷产品线或解决方案包。相比之下，CoolIT、Asperitas、Boyd 都在发新品。

5. AI Factory at Scale 没有标准化配置。 HPE 反复讲「AI 工厂」概念，但没有一个类似 NVIDIA DGX SuperPOD 的标准化配置清单——客户不知道「AI 工厂」到底包含哪些设备、多少机架、什么网络拓扑。

6. GPU 完全依赖 NVIDIA。 HPE 没有自研 AI 加速芯片。Discover 2026 上也没有提及对 AMD Instinct MI400 或 Intel Gaudi 3 的支持。这意味着 HPE 的 AI 工厂在 GPU 层面跟 Dell、Supermicro 没有差异——大家都用 NVIDIA 的卡。

结语：整合实验

HPE 的 AI 工厂是一个「超级整合实验」——计算（ProLiant + Cray）、网络（Juniper QFX + Aruba）、存储（Alletra）、软件（GreenLake + Mist + CloudOps），四层都有自己的产品，再加上 NVIDIA GPU 和合作伙伴生态。

历史上没有一个公司成功整合过这个跨度的基础设施全栈。IBM 做过，但卖掉了 x86 服务器业务。Dell 做过，但被 VMware 的股权结构困住了。Cisco 做过，但放弃了 UCS 的超大规模计算场景。

HPE 能不能做第一个？从 Discover 2026 的设备布局看，方向是对的：每一层都有拿得出手的产品（DL 394、QFX5140、Alletra MPX、GreenLake Intelligence）。但缺口的数量也不少——规格透明度、Cray 路线图、液冷产品化、GPU 多元化，每一个缺口都可能成为竞争者攻击的点。

2027 年的收入数据会给出第一份成绩单。

声明： 本文基于 HPE Discover 2026 公开报道撰写，综合参考了至顶科技、腾讯新闻、企鹅号等媒体报道。文中产品规格信息以 HPE 官方发布为准。Alletra MPX 10000 的 Gartner 预测数据来自公开报告。不构成投资建议。