Token 分发时代：MaaS 服务模式与商业解剖

2026 年 6 月，中国 MaaS（Model as a Service，模型即服务）市场出现了一个看似矛盾的现象：几乎所有主流厂商都在降价，有的直接跌穿成本线，但 token 消耗量反而暴涨。

豆包（字节跳动）2024 年 5 月上线时日均处理 token 约 1200 亿。到 2026 年 3 月，这个数字突破了 120 万亿（来源：QuestMobile、鳌头财经报道）。两年约 1000 倍。与此同时，字节 2025 年算力相关开支超过 300 亿元，净利润同比下跌 70%。

2026 年端午节前后，DeepSeek、阿里 qwen、字节豆包、智谱 GLM、百度文心、讯飞星火几乎同步宣布新一轮降价或限时低价套餐。智谱 GLM-4-Flash 直接免费，qwen-plus 从 4 元降到 2 元，豆包 pro 部分模型降价超过 80%。

降价越狠，用得越多。经济学家管这叫杰文斯悖论（Jevons Paradox）：当资源使用效率提高时，总消耗量不降反升，因为更低的单价释放了此前被价格压制的需求。MaaS 正在重演这一幕。理解这个悖论，是理解整个 MaaS 市场所有参与者的生存策略的钥匙。

一个关键问题随之浮现：5-7 元/百万 token 的保本线面前，MaaS 厂商如何生存？什么样的服务模式能扛住价格战？

一、保本线经济学

1.1 算账：1 亿 token 的真实成本

先拆一笔账。以一个 700 亿参数级别的大模型（如 DeepSeek V3、qwen-max）为例，部署在 H100 80GB 集群上，处理 1 亿个 token 的真实成本：

成本项	明细	元/亿 token
算力（GPU 租赁）	H100 80GB 单卡约 3 元/h（2026 年 6 月内部成本价），8 卡推理节点处理约 50K token/s	140-180
硬件折旧	自建集群按 3 年折旧，含 HBM（高带宽内存）、NVMe、网络	150-200
运维（电力+网络+人力）	液冷 PUE（Power Usage Effectiveness，能效比）1.15、网络带宽、运维团队	100-150
销售与平台	客户获取、API 网关、监控计费	40-60
合计		430-590

换算成每百万 token：4.3-5.9 元。加上品牌溢价、研发分摊、安全合规，保守估计保本线在 5-7 元/百万 token。

这个数字的前提条件是：自建集群、70-100B 参数模型、连续批处理利用率 70% 以上。如果用云上 GPU 按需租用，成本会再涨 30-50%。

关键变量有几个：输入输出比（输出 token 消耗的计算量是输入的 3-5 倍）、KV Cache 命中率（缓存命中则无需重复 Prefill）、模型规模（MoE 即 Mixture of Experts，混合专家架构的激活参数远小于总参数）。这些变量是 MaaS 成本优化的核心战场，后文会展开。

1.2 六月定价分布

2026 年 6 月主流模型的定价分布：

模型	定价（元/百万 token）	与保本线关系
阿里 qwen-plus	2	远低于保本线
火山豆包 pro	2-4	低于保本线
智谱 GLM-5.1	5	接近保本线
DeepSeek V4-Pro	6	贴保本线
百度文心 4.5	8	略高于保本线
OpenAI GPT-5.5	~210（$30）	远高于保本线
Anthropic Claude 4.5	~105（$15）	远高于保本线
Google Gemini 2.5 Pro	~70（$10）	远高于保本线

国内定价普遍压在保本线附近或以下，海外三巨头维持 10-20 倍溢价。

这组数据的直接含义：国内 MaaS 如果只靠 token 差价赚钱，绝大部分厂商是亏损的。qwen-plus 2 元/百万 token 的定价，距离保本线差 3-5 元，意味着阿里每处理 1 亿 token 亏 300-500 元。

但阿里不会真的亏。原因在于 MaaS 的收入结构远不只是 token 差价。IaaS 云服务器、数据库、数据湖、安全产品、企业定制服务，这些才是真正的利润来源。qwen-plus 的低价是流量入口，把开发者拉进阿里云生态，再通过 IaaS 变现。

1.3 Token 末日的数学

理解 MaaS 商业逻辑，需要拆解 token 消耗的乘数效应。

一个用户直接对话场景：输入 1000 token，输出 500 token，单次消耗 1500 token。

一个 AI 智能体（Agent）场景：用户发一条指令，Agent 拆解为 3-5 个子任务，每个子任务需要 1-3 轮工具调用，每轮调用平均 2000-5000 token。单条指令的典型消耗在 2 万到 5 万 token 之间，极端情况下可超 7 万。比直接对话高 10-30 倍。

豆包的 120 万亿日 token，大量来自字节系产品（抖音、飞书、今日头条）的 AI 功能调用。这些调用的 token 消耗量巨大，但单 token 对字节的商业价值也很高：AI 摘要提升了内容消费效率，AI 搜索提升了广告匹配精度。

杰文斯悖论之所以成立，是因为 AI 的边际效用不是线性下降的。每多处理一批 token，就多一个可以被智能体完成的任务，多一个可以被优化的业务流程。需求的天花板远没有触及。正因如此，聚合路由和平台模式才有了存在的基础：总需求在膨胀，但单价在下降，碎片化的调用需要中间层来消化。

二、四种服务模式

理解 MaaS 市场，关键不是看谁降价最狠，而是看不同的服务模式如何共存。目前市场上有四种清晰可辨的模式。

2.1 直营型

典型玩家：DeepSeek、字节豆包、阿里 qwen、OpenAI、Anthropic。

核心特征是自有模型、自有品牌、直接触达终端用户或开发者。定价权完全掌握在自己手里，模型迭代的节奏和方向由内部决定。

DeepSeek 是直营型里最特殊的一个。它的策略是用工程优化替代规模摊薄：通过 MoE 动态路由、注意力稀疏化、PD 分离、INT4 量化等自研技术栈，把单 token 成本从行业基线的 $0.12 降到约 $0.005（来源：DeepSeek V3 技术报告，降幅 96%）。这使得 DeepSeek 能在 6 元/百万 token 的价位上接近保本线，同时维持模型质量。DeepSeek 不需要云生态来补贴亏损，但它缺乏分发渠道，开发者需要主动去找 DeepSeek API，而不是被云平台裹挟进来。

OpenAI 和 Anthropic 是海外直营型的代表，走的是完全相反的路：高定价维持 60-70% 的毛利，靠模型效果和品牌溢价赚钱。GPT-5.5 定价 $30/百万 token，是 DeepSeek 的 35 倍。这个价差能维持多久，取决于模型效果的差距能维持多久。

2.2 云生态型

典型玩家：火山引擎（字节）、阿里云百炼、百度智能云、华为云 MaaS。

这是中国 MaaS 市场份额最大的模式。IDC 2025 年数据：火山引擎占 49.5%，阿里云 28%，百度 10%。三者合计 87.5%。

云生态型的核心逻辑是"总包"：不只卖 token，而是卖一整套 AI 基础设施，包括算力、存储、数据库、模型服务、数据治理、安全合规、企业定制。MaaS 定价可以低于保本线，因为利润从 IaaS 和周边服务回收。

这种模式的优势在于生态粘性。一个企业把 AI 模型部署在火山引擎上，它的数据、工作流、监控体系都绑定了火山引擎，迁移成本极高。劣势是 MaaS 与 IaaS 的内部左右互搏：MaaS 降价越多，IaaS 的 GPU 消耗越大，但 MaaS 本身亏得也越多，需要 IaaS 利润来填。

华为云 MaaS 是一个值得关注的变体。它走"模型中立"路线，不只用盘古模型，还集成 DeepSeek、GLM、qwen、Llama 等第三方模型。2026 年 4 月出海东南亚 9 国，同时支持盘古和 DeepSeek V4、GLM-5.1 等第三方模型。华为的筹码是昇腾芯片加 CloudMatrix 超节点架构，用自有硬件绑定模型服务，跟 NVIDIA 生态做区隔。在政企市场，华为的合规能力和私有化部署经验是额外的护城河，这不是纯技术维度能衡量的。

2.3 聚合路由型

典型玩家：OpenRouter、硅基流动（SiliconFlow）、302.AI、CatRouter、诗云 API。

核心特征是模型中立、统一 API、智能路由。不拥有模型，而是做模型之间的"调度器"。

OpenRouter 是这个模式的标杆案例。2026 年 5 月完成 B 轮融资 1.13 亿美元（CapitalG 领投，NVentures 跟投），估值 13 亿美元（半年翻倍）。年化收入约 5000 万美元，半年涨 5 倍。周处理 25 万亿 token，月度约 100 万亿，用户超 800 万，抽佣约 5.5%（来源：OpenRouter B 轮融资公告，2026 年 5 月）。

硅基流动是中国版的聚合路由型。2026 年 6 月完成 20 亿元+融资，日 token 处理量达万亿级别，营收同比增长 10 倍。它同时是 OpenRouter 上中国模型的通道（中国模型占 OpenRouter 周调用量的 41.3%）和国内开发者的模型聚合入口。

聚合型的核心价值来自四个能力：多模型 failover（单模型宕机自动切换）、智能路由（按任务类型、成本、性能自动选最优模型）、跨供应商计费对账（企业一张发票管所有模型）、跨境通道（中国模型出海、海外模型进中国）。

风险同样清晰。上游模型厂在推行"去中间层"策略，OpenAI 和 Anthropic 直接给企业大客户签约，绕过聚合层。模型厂自建聚合（Anthropic Console、Google Vertex AI Model Garden）也在蚕食聚合型的生态位。如果模型效果差距缩小，"按效果路由"的价值就会下降，聚合型只剩"按价格路由"这层薄利。但杰文斯悖论在这里提供了一个反向支撑：总需求膨胀速度远快于效果收敛速度，碎片化的调用场景（Agent 工作流、多模型协作）反而更需要路由层来消化复杂性。

2.4 平台型

典型玩家：Hugging Face、Replicate、Cloudflare Workers AI、Dify。

核心特征是开发者生态驱动。Hugging Face 不只提供模型推理，更是一个模型仓库、数据集平台和社区。开发者可以自选模型、自调参数、自行部署。Cloudflare Workers AI 把推理直接嵌在边缘网络里，延迟低到极致。

平台型的商业化路径最窄。Hugging Face 靠企业版订阅和推理托管收费，但大量开发者只使用免费层。Replicate 按 token 计费，但单价高于直营型。Dify 定位在 Agent 开发平台，通过工作流编排和模型路由收费，但规模远小于聚合型。

平台型的长期价值在于长尾覆盖。当模型数量从几十个膨胀到几百个，企业不可能和每家模型厂逐一对接。平台型在这个位置提供了"逛模型超市"的体验。此外，开源模型（Llama、Qwen 开源版、DeepSeek 开源权重）的快速发展正在扩大平台型的价值：越来越多的企业选择在 Hugging Face 或 Dify 上自建推理，绕过 MaaS 直接使用开源权重。这对直营型和云生态型的中低端市场构成了长期侵蚀。

2.5 四种模式的竞合关系

这四种模式不是彼此替代的，而是嵌套的。一个典型企业的 AI 技术栈可能是这样的：用阿里云的 IaaS 做算力底座（云生态型），通过硅基流动统一 API 接入多个模型（聚合路由型），在 Dify 上编排 Agent 工作流（平台型），同时对核心任务直连 DeepSeek 或 GPT-5.5（直营型）。

谁吃掉谁？短期不会。每种模式在各自的位置上提供了不可替代的价值：算力、路由、编排、模型。但利润分配的方向是明确的：越靠近算力底层（云生态型），利润越厚；越靠近模型层（直营型），定价权越强；中间层（聚合型、平台型）活得最辛苦。

还有一个容易被忽略的变量：大企业自建推理。银行、保险、政务等对数据安全和合规有刚性要求的行业，倾向于自建 GPU 集群、部署开源模型或购买私有化部署服务，而不是使用公共 MaaS。这直接限制了 MaaS 市场的潜在规模。IDC 估计，中国企业 AI 推理支出中，自建和私有化部署占比超过 40%，且在政务和金融领域超过 60%。华为云在这个层面有天然优势，因为它同时卖芯片和私有化方案。

三、三条路径：谁在怎么赢

MaaS 市场的竞争不只是价格战，而是三条路径的赛跑。

DeepSeek 走技术硬核路线。自研全栈推理引擎，把 MoE 动态路由、注意力稀疏化、PD 分离、INT4 量化全部做到极致，单 token 成本从行业基线 $0.12 打到约 $0.005，降幅 96%（来源：DeepSeek V3 技术报告）。用工程优势抵消规模劣势，靠单 token 成本低维持定价竞争力。但它的天花板在分发渠道：没有云生态，开发者需要主动来找它。

火山引擎走规模加生态路线。十万卡级别的集群规模把单位 GPU 成本压到行业最低，叠加字节系产品（抖音、飞书、今日头条）的内部调用量构建数据飞轮，再通过 IaaS 粘性锁定企业客户。MaaS 定价低到可以白送，只要 IaaS 和周边服务赚回来。它还有一张牌：订阅与按量混合计费。Coding Plan 从 40 元/月降到 9.9 元/月（首两月 2.5 折），经典的 SaaS 漏斗逻辑。火山的天花板在工程深度，核心推理引擎依赖开源的 vLLM/SGLang。

OpenRouter 走轻资产聚合路线。不持有算力、不做推理优化，专注在统一 API、智能路由、跨厂计费和跨境通道。800 万用户、月处理 100 万亿 token，抽佣 5.5% 贡献了超过 5000 万美元的年化收入。它的天花板在上游模型厂的"去中间层"策略。

维度	DeepSeek	火山引擎	OpenRouter
核心优势	自研推理引擎，单 token 成本行业最低	十万卡规模 + 字节生态绑定	轻资产，800 万用户，统一 API
商务模式	纯 token 定价	订阅 + 按量 + 生态绑定 + IaaS 变现	5.5% 抽佣 + 跨境通道
天花板	缺分发渠道	依赖开源推理引擎	上游模型厂自建聚合

技术优化的细节（六个杠杆如何叠加实现 96% 的成本下降）是另一篇文章的容量。这里只需记住一个判断：杰文斯悖论意味着技术优化把成本压低了 96%，但总 token 消耗量涨了上千倍。整个行业的算力支出不是减少了，而是增加了。字节 2025 年 300 亿+ 的算力账就是证据。

四、中国 MaaS 市场格局

回顾中国 MaaS 市场过去两年的演变。

2024 年初，格局分散，百度、阿里、字节、华为各有阵地，没有明显的头部。到 2025 年底，火山引擎凭借豆包的爆发式增长和字节系产品的内部调用量，以 49.5% 的份额坐稳第一。阿里依靠通义系列和阿里云 IaaS 的庞大客户基础占 28%，百度占 10%。

2026 年上半年的主要变量有三个。

第一，DeepSeek V4 的发布。DeepSeek 在技术圈建立了"性价比之王"的口碑，V4-Pro 在多个主流评测（MMLU、HumanEval、Chatbot Arena）中与海外旗舰模型的综合差距收窄到 5-10%。但 DeepSeek 不做云生态，直接收入份额有限，更多是通过硅基流动等聚合平台间接渗透市场。它的真正影响在于锚定了行业的价格底线：只要有 DeepSeek 在，其他厂商就很难把定价拉高。

第二，硅基流动的崛起。以聚合路由切入，同时拿下国内开发者和 OpenRouter 通道，日 token 处理量达万亿级别。2026 年 6 月完成 20 亿元+融资，营收同比增长 10 倍。硅基流动的商业模式能成立，恰恰是杰文斯悖论的间接验证：总需求膨胀到一定规模后，碎片化调用的路由需求本身就是一门大生意。这个增速意味着它可能在 2027 年挑战百度的第三位置。但风险也很清晰：一旦火山或阿里在聚合路由上发力，硅基流动的生态位会被直接挤压。

第三，华为云 MaaS 出海。2026 年 4 月在新加坡发布，覆盖东南亚 9 国，集成盘古、GLM-5.1、DeepSeek 等多源模型。华为的策略是用昇腾芯片加 CloudMatrix 超节点做差异化，跟 NVIDIA 生态做区隔。为什么选东南亚而不是中东或拉美？因为东南亚的 AI 需求增长最快（印尼、越南的 AI 采用率年增速超过 200%），且对中国芯片的监管阻力最小。在东南亚和"一带一路"市场，华为的政企关系优势和合规能力可能比模型效果更有说服力。

还有一个结构性变量不容忽视：监管。中国的模型备案制、内容审核要求、数据出境限制，构成了 MaaS 市场实打实的准入门槛。火山引擎在消费端份额最大，但华为云在政企市场的优势很大程度上来自合规能力，而不仅仅是硬件。百度的份额虽然下滑，但它在搜索和教育领域的合规积累让它不会轻易出局。监管壁垒让中国 MaaS 市场的竞争格局不会简单演化为"赢家通吃"。

五、风险与展望

近期压力（6-12 个月）

Token 消耗增速快于成本下降速度。杰文斯悖论意味着降价越多、烧钱越狠。字节 2025 年算力开支 300 亿+、净利润 -70%，其他厂商的情况类似。如果融资环境收紧或母公司战略调整，MaaS 部门可能面临预算压缩。但这里有一个反直觉的缓冲：杰文斯悖论也意味着 token 消耗量暴涨带来的总盘子在扩大，即使单 token 亏损，总营收仍在增长。只要现金流能转，MaaS 就能继续烧。

模型同质化是更现实的压力。当 Claude、GPT、Gemini、DeepSeek、qwen 之间的效果差距缩小到 5-10%，"用最好的模型"不再是刚需，"用最便宜的模型"成为默认选项。这对直营型里成本控制好的玩家（DeepSeek）是利好，对聚合型是中性（路由价值从效果路由转向价格路由），对高定价的海外厂商是真正的威胁。

开源模型的角色在这个阶段变得关键。Llama 4、Qwen 开源版、DeepSeek 开源权重让任何人都能自建推理。Hugging Face 上的开源模型下载量在 2026 年 Q1 同比增长 340%。这对 MaaS 的中低端市场构成直接侵蚀：如果开发者可以免费跑一个效果达到旗舰模型 85% 的开源模型，为什么要付 API 费？这不是远期威胁，而是正在发生的事实。

中期分化（12-24 个月）

分层定价会从"可选"变成"标配"。输入/输出/缓存的三档定价将覆盖主流 MaaS 服务，高精度推理（如数学、代码）和低精度推理（如闲聊、摘要）的价差会拉大到 10 倍以上。这意味着 MaaS 的收入结构会更复杂，也更健康。

聚合层可能出现分化。顶层 2-3 家吃掉 70% 以上的路由流量（OpenRouter 和硅基流动最有希望），垂直领域聚合（代码、视频、医疗、金融）占 20%，剩下的被云厂和模型厂自建聚合吞掉。底层聚合型的生存空间会持续收窄。

远期变量（24 个月以上）

NVIDIA 收购 Groq 是一个信号。Groq 的 LPU（Language Processing Unit）用确定性执行替代 GPU 的动态调度，在延迟敏感型推理场景有独特优势。NVIDIA 把 LPU 技术整合进 CUDA 生态后，PD 分离的硬件基础会更成熟，推理成本可能再降一个台阶。如果推理硬件从 GPU 切换到专用加速器，整个 MaaS 的成本结构会被重写。

新推理范式可能在文本领域重现。Diffusion 模型在图像生成领域已经展示了自回归的替代方案。Google 的 DiffusionGemma 在文本生成上的实验表明，扩散范式在某些场景下可以实现更高的吞吐量。如果这个方向成熟，推理引擎的技术栈需要重构。

国产芯片的临界点也在逼近。华为昇腾 950 已经在华为云 MaaS 上商用，阿里含光在做推理优化。如果国产芯片在 2027-2028 年突破 H100 的性价比拐点，中国 MaaS 的成本结构会被根本性改写。到那时，杰文斯悖论的下一轮循环又会开始：成本更低，需求更大，总支出继续涨。

声明： 本文基于公开信息撰写，综合参考了 IDC《中国企业级 MaaS 市场报告》（2025）、QuestMobile 豆包 token 数据报道（2026）、DeepSeek V3 技术报告、OpenRouter B 轮融资官方公告（2026 年 5 月）、百度百科 OpenRouter 词条、财联社/华尔街见闻硅基流动融资报道、LMSYS Chatbot Arena 评测数据，以及各厂商官网定价页面。不构成投资建议。文中数据截至 2026 年 6 月 16 日。