首页 > 教程攻略 > ai资讯 >Token不经济

Token不经济

来源:互联网 时间:2026-06-30 15:45:32

先说几个核心判断。最近有消息爆出,微软收回了内部使用的 Claude Code 许可。Claude Code 是 Anthropic 推出的 AI 编程工具,在微软内部开放仅仅 6 个月就成了最受欢迎的辅助开发软件之一。但随之而来的,是 token 消耗量的剧增、成本的暴涨,而产出质量却不尽如人意。多重考量之下,微软踩了刹车,把员工导向自家的 Copilot CLI。

Token 消耗与实际产出不成比例的现象,在其他平台型企业里也屡见不鲜。Uber 仅用 4 个月就烧光了 2026 全年的 AI 编程工具预算;亚马逊有些员工在无意义地消耗 token;Meta 则悄悄撤下了内部的 Tokenmaxxing 排行榜,不再鼓励那些没有产出的 token 消耗。人人都在拥抱 AI,但好像都没找到正确的姿势;企业都在强调 AI 原生,但(暂时)没看到收益,只看到越来越长的账单。这种现象,姑且可以称之为“token 不经济”。

Token 不经济,是企业内部管控不力、token 使用回报有限,以及 Agent 本身的架构设计(比如技能重复调用、长程任务的内耗、多智能体协同成本)等多重因素叠加的结果。未来,这些问题可能会随着内控的精细化和技术层面的不断优化而逐步缓解。但要想让 token 的净收益转正,光从供给端着手优化 token 成本还不够,还得从需求端想办法,解决如何让 token 消耗在广泛的产业场景中产生实际价值这个核心难题。

好货不便宜

过去两年,主流大模型快速迭代,开发企业根据自身的市场定位采取了不同的产品组合策略,API 调用价格(每百万 token 的美元价格)也随之变动。模型性能大幅提升是不争的事实,但好货不便宜,同一分层产品的调用价格也在悄然提升,这成为推高下游使用者 token 消耗成本的重要原因。

领导者的分层策略

Anthropic 是闭源模型厂商中最早认识到编程是 token 变&现核心场景的公司。大模型的主要付费用户是开发者和企业技术团队,他们对价格不那么敏感,更看重模型的编码效率和质量。谁先掌握了编程这个商业场景的先机,谁就能实现 token 溢价。

因此,Anthropic 在研发上专注编程。在确立了编程能力优势后,自 2024 年初推出 Claude 3 系列起,在业内率先采用了旗舰-中端-轻量的立体产品组合,实现了同代模型的分层定价,同时抢占高端和大众市场。Opus 系列定位为编程领域标杆,以 15 美元/75 美元(输入/输出百万 token 价格,下同)的定价锚定高端市场;Sonnet 系列(3 美元/15 美元)为日常编程和办公任务提供高性价比选择;Haiku 系列(1 美元/5 美元)面向轻量、快捷的互动场景,价格亲民。这种精细的层级划分,让 Anthropic 能在每一个价格带上最大化利润提取,同时保护自己的市场份额。

这种定价策略让作为技术领导者的 Anthropic 竞争手段更多、操作也更灵活。例如,在觉察到与竞品性能差距快速缩小后,借 Opus 4.5 发布大幅降价,挤压竞品的市场空间。再如,随着新一代模型 Mythos Preview(25 美元/125 美元)发布,在 Opus 之上置入了新的超高端分层,抬升了旗舰产品的价格,逆转了之前高端产品不断降价的趋势。随后发布的 Fable 5 采用同一底层架构,以安全为由对部分功能进行限制,采用 10 美元/50 美元的价格(仍是 Opus 系列的两倍)面向更广泛的市场。这不仅是按性能定价,更是按安全约束的松紧程度定价,形成了能力分层、风险分层、定价分层的三维定价策略,重新拿回了溢价市场。

这套定位策略的效果在 2025 年至 2026 年间得到了充分验证。Anthropic 的年度经常性收入从 2024 年底的约 10 亿美元飙升至 2026 年 5 月的约 450 亿美元。更重要的是,这一策略充分保护了其作为产品力领导者的市场溢价,依靠性能优势跳出了卷价格的窠臼,完成了“好货不便宜”的价值闭环。

追赶者的价格拉扯

相比之下,OpenAI 和 Google 在大模型商业化的早期阶段选择了与 Anthropic 不同的多元化路径。OpenAI 在 2024 年曾将大量资源投入 Sora 等多模态项目;Google 则围绕 Gemini 构建了覆盖搜索、云服务、Workspace 等多条产品线的生态策略。这些投资虽然拓展了技术版图,却因资源分散,在办公和编程场景上表现并不突出。当它们意识到编程才是模型能力变&现的主战场,再返身回来追赶时,已经失去了先手优势。

OpenAI 的返身非常坚决。一方面重新聚焦编码和 Agent 能力,砍掉了 Sora 等项目;另一方面,跟随 Anthropic 建立自己的分层产品矩阵,一对一紧逼盯人,同时刻意拉大旗舰模型和轻量模型的价差——旗舰高价守住领先模型的招牌,轻量低价抢夺市场份额。GPT 5.5 的定价(5 美元/30 美元)与 Opus 4.7/4.8(5 美元/25 美元)看齐,建立了与 Claude Opus 同等的高端价格锚点;次级模型 GPT 5.4 mini(0.75 美元/4.50 美元)和 nano(0.20 美元/1.25 美元),则大幅低于同级的 Claude Haiku 4.5(1.00 美元/5.00 美元),以价格换市场。

Google 作为安卓生态体系的核心,已经有完整的商业闭环,需要处理的关系更复杂,动作也更谨慎。Gemini 需要同时服务于 Google Cloud 的企业客户、Workspace 的生产力用户以及搜索产品的消费者体验。即便意识到了编程的重要性,也无法决然将所有资源都聚焦于编程和办公,还是要走多模态、多元化的路线。

Google 也是紧随 Anthropic 从 1.5 代 Gemini 开始将产品分为旗舰 Pro 系列和轻量 Flash 系列,但产品迭代速度相对较慢,价格定位也更低。2024 年初的旗舰模型 Gemini 1.5 Pro 在短 prompt(<128k)情形下,输出百万 token 价格仅为 5 美元,是同期 GPT-4o 的三分之一,Opus 3 的十五分之一。2026 年 2 月发布的 Gemini 3.1 Pro,百万 token 输出价格提升至 12 美元,显著低于同期 GPT 5.4 的 15 美元和 Opus 4.6/4.7 的 25 美元。不仅如此,Google 还搞了一个反向操作,在轻量产品线 Flash 下面加入了超轻量产品线 Flash-Lite,将调用价格压到了与开源模型同样的水平线,典型的以价换量。

而被市场殷切期盼的 Gemini 3.5 Pro 迟迟未能正式发布,也反映出 Google 在平衡性能、安全性和生态适配方面面临的内部博弈。新一代旗舰模型的定价策略,同样备受市场关注。

图1:旗舰模型定价变化趋势。Claude 系列及 GPT-4o/4.1/5.4 的定价来自官方定价页;GPT-5.5 系列、Gemini 3.5 Flash 的定价来自 OpenAI/Google 平台及第三方汇总;GLM 系列定价基于海外 Z.ai 平台,具体价格受汇率波动和双轨定价影响。绘图:Codebuddy

次级/轻量和开源/半开源模型市场在需求爆发中默默涨价

旗舰模型拼性能,次级/轻量模型卷价格,这似乎是市场竞争理所应当的正确姿势。面对激烈的竞争,一般预期是市场价格中枢会不断下降。但实际情况恰恰相反,由次级/轻量-开源/半开源模型构成的经济型 token 市场,价格中枢在过去两年悄然上移。token 市场价格地板的真正抬升,正是在这种上移中完成的。

表面上看,这是一片杀疯了的红海。Sonnet、mini、Flash 等收费低廉的次级/轻量模型,是主流闭源模型面向大众市场的经济实惠装,主要目标是抢夺市场份额。与此同时,DeepSeek、Qwen 和 GLM 等开源或半开源模型迅速崛起,普遍采用“旗舰定位、次级/轻量定价”的策略,给次级/轻量闭源模型市场带来了持续的价格压力。2024 年底,DeepSeek V3 以约 0.27 美元/1.10 美元的定价切入市场,远低于同级闭源模型。稍后推出的 R1 以 0.55 美元/2.19 美元的价格提供推理增强能力,直接压缩了 GPT-4.1 mini 和 Claude Haiku 的定价空间。GLM-4 Plus 以仅 0.69 美元/0.35 美元的价格提供接近 GPT-4 级别的能力,对价格敏感的开发者群体构成了极大的吸引力。卷价格,看起来是这个分层市场的常态。

但另一方面,每一代次级/轻量和开源/半开源模型的推出,都伴随着价格地板的抬升。例如,2024 年 10 月推出的 Haiku 3.5,输入/输出定价为 0.80 美元/4.00 美元;一年后 Haiku 4.5 的定价上浮 20%,到了 1.00 美元/5.00 美元。差不多同一时间,GPT mini 系列定价几乎翻番,从 4o mini 的 0.15 美元/0.60 美元上浮至 4.1 mini 的 0.40 美元/1.60 美元。Gemini Flash 系列也同样,从 2.0 Flash 的 0.10 美元/0.40 美元超低定价,上浮至 2.5 Flash 的 0.30 美元/2.50 美元,百万 token 输出定价翻了 6 倍还多。开源/半开源模型如 GLM 系列,GLM-5 在海外市场的定价较 GLM-4.7 提升了约 67% 到 100%。用智谱自己的话来说,这次大幅提价,显示出国产模型的技术能力和市场竞争力正在快速提升。

产生这一现象的根本原因,是经济型 token 消费量的爆炸式增长。大多数日常编码任务、文档处理和自动化流程并不需要 Opus 或 GPT-5.5 级别的能力,而是由 Sonnet、mini、Flash 等模型承担,或交由开源/半开源模型完成。随着 AI 编码助手、Agent 工作流和企业级 AI 应用的普及,这些次级/轻量-开源/半开源模型的调用量激增,远超旗舰模型。一方面,这使得经济型模型消耗快速上升,烧现金维持低价的游戏无法持续;另一方面,这也为厂商开拓了提价空间——涨价的同时需求仍在快速增长。因此,即便是在经济型 token 市场,竞争逻辑也从“哪家 token 更便宜”转向了“哪家 token 性价比更高”。不论是 Claude Sonnet/Haiku、GPT mini/nano、Gemini Flash,还是 DeepSeek、Qwen、GLM 系列,都出现了定价中枢抬升的趋势。

从上面的分析大致可以看到,token 市场正在经历一个高端定价格局固化、中端量价齐升、经济型跟随追涨的整体抬升过程。Anthropic 凭借编码能力领先,建立了行业最强的定价权;OpenAI 和 Google 正在加速追赶,但短期内仍需以价换量;而开源/半开源模型在持续抬升定价地板的同时,也开始分享市场增长的红利。这一格局的演变将深刻影响整个 AI 产业的利润分配和竞争态势。在消耗大增、单价上涨的 token 市场,与模型厂商收入爆发相对应的,必然是下游 token 使用者的成本攀升,这正是终端消费中“token 不经济”的底层原因。

图2:次级/轻量和开源/半开源模型定价趋势。Claude 系列及 GPT-4o/4.1/5.4 的定价来自官方定价页;GPT-5.5 系列、Gemini 3.5 Flash 的定价来自 OpenAI/Google 平台及第三方汇总;GLM 系列定价基于海外 Z.ai 平台,具体价格受汇率波动和双轨定价影响。绘图:Codebuddy

智能体的隐形消耗

Token 越来越贵固然伤及荷包,但更让人心疼的是,不少 token 在调用智能体干活时被系统性地浪费掉了。上下文陷阱、分词器黑箱、技能冗余,以及多 Agent 协同中的沟通税与长程熵增——这些结构性的跑冒滴漏叠加在一起,构成了 token 不经济的内部技术根源。

上下文陷阱

模型推理需要计算每个 token 和其他 token 的关系,因此上下文越长,计算负担越重,token 消耗就越多。同样一个问题,如果直接丢给 Agent,消耗不了几个 token。但如果带着历史对话、工具日志、代码文件、报错信息和多轮讨论,输入 token 的消耗可能会多出几个数量级。

而 Agent 架构天然放大了长文本陷阱。智能体会将问题拆解,规划调用工具,读文件,检查反馈,修改方案,再调用工具……循环往复,每一步都可能把历史记录重新带进上下文。同一批信息被反复读取,同一个任务被反复计费。Salim 等人(2026 年)对 ChatDev 框架的分析发现,代码审查阶段消耗的 token 平均占总消耗的 39.5%,是所有开发阶段中最高的。这意味着近四成的 token 花在了 Agent 之间反复传递已有信息的过程中,而非真正生成新内容。

图3:对 ChatDev 框架 30 个任务中各阶段 Token 消耗占比的分析。Salim, et al., (2026). Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering. Proceedings of the Mining Software Repositories Conference (MSR).

分词器黑箱

分词器是大模型训练的基础,决定了同等参数量下模型的信息密度上限、有效上下文长度下限和边缘 case(数字/代码/多语种)的可靠性。分词越合理,模型训练和推理就越高效、稳定。开源/半开源模型的分词器和权重通常是公开的,而闭源模型的分词器则是“黑箱”。分词器的更新换代,往往伴随着 token 密度的变化。

2026 年 4 月,Anthropic 发布 Opus 4.7 的同时,更换了底层分词器。根据官方文档披露,分词器调整主要考虑模型训练的实际需求,为提升性能采用了更细粒度的子词分割方案,副作用是同样长度的文本,token 数量膨胀了 1.0 倍至 1.35 倍。多家独立测试机构的实际测试结果则更高。企业 AI 成本管理平台 Finout 针对真实企业 prompt 的加权实测显示,技术文档与英文密集代码文件的平均膨胀率达到 1.47 倍(+47%);ClaudeCodeCamp 对七种真实文件类型的综合测试结果为平均 1.325 倍(+32.5%);开发者 Simon Willison 通过 API 直接比对发现,同一份系统提示词在新分词器下从 5,039 tokens 膨胀至 7,335 tokens(+46%),而高分辨率图片的 token 膨胀更是高达 3.01 倍(+201%)。

更早之前,OpenAI 在发布 GPT-4o 时将分词器从 cl100k_base 升级为 o200k_base,词表规模扩大了近一倍。官方说明此举旨在提高压缩率并增强多语言处理能力。然而,词表膨胀本身并不意味着同等文本的 token 计数减少,实际上对于非英语内容(尤其是中文、日文等 CJK 字符),新分词器的切割粒度变化可能导致 token 数不减反增。

关于更细颗粒度的分词是否能提升模型表现,目前还缺乏来自模型厂商的系统性公开论证。Anthropic 在 Opus 4.7 的变更文档中将新分词器归入 Breaking Changes 条目,仅描述了事实层面的变更(更细粒度的子词分割),未详细解释技术动因或性能收益。社区中有研究者指出,更细的分词理论上可以丰富模型的词汇表征能力,尤其有利于代码理解和结构化数据处理(JSON、XML 等格式在 Opus 4.7 中触及了最高的 1.35 倍膨胀上限),但这种潜在的性能增益是否足以合理化近 50% 的成本增幅,仍然是一个悬而未决的问题。

分词器迭代频率明显低于模型更新,但它事关 token 的最基本计费标准,且变化隐藏在技术细节之中,普通使用者几乎不可能察觉。闭源模型对分词器更是讳莫如深,这有可能成为加重 token 不经济的原因之一。

技能的无意义调用

技能(Skill)是让 Agent 架构更专业的关键工具之一。有人把技能看成是长一点的 markdown,有人把技能当成一个装了各类参考文献和操作说明的文件夹,也有人把技能理解为一段超长的结构化 prompt。在实际的推理和 Agent 任务中,很多技能过长过杂,加大了 token 消耗。

Gao 等人(2026 年)对 55,315 个公开技能的大规模实证研究,揭示了技能的无效加载是如何浪费 token 的。在路由层面(即 Agent 决定是否调用某个技能的环节),高达 26.4% 的技能完全没有路由描述,就像一本本没有目录的工具手册,大大增加了被 Agent 无效加载的概率。在正文层面,超过 60% 的技能内容不是可直接执行的操作规则,而是背景解释或示例文本——使用技能的大部分 token 花在了阅读说明书而非干活上。更严重的是,部分技能会密集引用文件,单次调用就会注入数万乃至十余万 token,其中可能只有很小比例与当前任务相关。

Han 等人(2026 年)的 SWE-Skills-Bench 基准测试进一步证实了技能效用的有限性。该研究在真实 GitHub 项目上测试了 49 个公开软件工程技能,结果显示 39 个技能(79.6%)没有带来通过率的任何提升(有技能和无技能的 Pass 率相同),全部 49 个技能的平均效用增量仅为可怜的 1.2 个百分点,然而 token 开销最高增加了 451%。仅有 7 个编码特定领域专业知识的技能(如金融风控公式、云原生流量管理、GitLab CI 模式)带来了有意义的性能提升(最高提升 30 个百分点);更有 3 个技能因版本冲突导致性能下降(最高下降 10 个百分点)。这说明技能的效用高度依赖场景匹配度,盲目调用只会徒增成本。

多 Agent 的废话与长任务的跑偏

多 Agent 是目前备受青睐的工作方式——让使用者一个人领导一个由 AI 构成的“团队”,写代码的、审查的、测试的、修复的,多个 Agent 各司其职,互相监督,在很多情况下确实提高了输出质量。但机器之间也会开“无效会议”,对话中不断重复已经讨论过的任务背景、之前的结论、格式化套话。每重复一次,就再消耗一遍 token。Salim 等人(2026 年)称之为多 Agent 系统的“沟通税”。

此外,将复杂的长程任务交由多 Agent 系统完成,正在成为编程和办公的主流做法,并逐渐扩展到餐饮、出行等日常生活场景。长程任务本身就存在容易跑偏的问题。此类任务的上下文里塞满工具输出、报错、草稿、日志,很容易造成模型推理逐渐偏离目标。为了纠偏,开发者往往需要增加摘要、记忆、检查、回滚等机制,带来更多的 token 消耗。Luo 等人(2026 年)在对 TabTracer 的研究中观察到,传统链式推理在路径过长时容易陷入循环状态,对抗性注入可以故意触发这种循环,使 Agent 在错误路径上反复消耗 token 而不自知。这种维持稳定所需的额外消耗通常被称为“熵税”。系统越复杂,Agent 越自由,越需要监督;任务越长,上下文越大,熵税增长就越快。一个看似高效的 Agent 团队,token 账单中可能有超过一半花在了内部协调与自我纠偏上。

上下文陷阱、分词器黑箱、技能的无意义调用、废话文学和长任务跑偏——这些因素叠加在一起,对 token 消耗的效果不是简单的加和,而是乘积性的指数增长。更值得注意的是,这些技术性损耗对不同使用者的影响是不对称的。具备技术背景的开发者可以通过调整系统提示词、裁剪技能内容、设置上下文窗口管理策略等方式在一定程度上缓解这些问题。但对于缺乏技术背景的普通企业用户而言,他们既不理解 Agent 内部的 token 流转机制,也无法有效干预其行为模式,只看到账单上的数字在不断增长,却不知道钱究竟花在哪里、为什么花了那么多。在这个意义上,token 不经济不仅是一个技术效率问题,更是一个技术平权问题。AI 工具的使用门槛,从“会不会写代码”变成了“能不能理解 Agent 架构的成本动力学”。现实中大多数智能体的使用者并不具备相关技术背景,被置于结构性劣势之中。

寻找真实的需求

比起定价、无效消耗等种种供给端的问题,应用端的局限性才是造成 token 不经济的更重要的原因。尽管模型性能在过去两年取得了令人瞩目的进展,但 token 的通用性仍然相当有限。目前的 token 使用大都局限在数字化水平较高的场景中,比如编程辅助、文档处理、数据分析。跳出这些优势区域,大模型性能会随着应用场景数字化水平的下降而急剧衰减。到了数字化程度极低的线下服务业态——如餐饮、家政、零售终端、现场维修——token 能够独立完成的任务都局限在已经高度数字化的流程管理部分,很难实际参与现场操作。

这不是说 AI 永远无法进入这些领域,而是说当前的纯语言模型范式(token-in, token-out)与现实世界之间存在着一条结构性鸿沟。这个问题在移动互联网时代就存在,是数字技术未能从根本上改变第一和第二产业的根本原因。人工智能的发展为跨越这条鸿沟提供了新的可能——科学智能、世界模型、机器人系统等基础性研究正在取得进展。过去两年,诺贝尔物理学奖和化学奖被授予人工智能科学家,Figure、Tesla Optimus、宇树等人形机器人也取得了显著进展。但这些前沿领域目前仍处在实验室阶段,在取得划时代的应用层突破之前,token 大概会持续困在高度数字化场景中。

编程是通用的特例

编程是目前大语言模型表现最好的应用场景,但这一场景并不具有普遍的代表性。更准确的描述是:它具有通用性的特例。

说它通用,是因为编程输出的是 Agent 的通用语言,可以在数字化基础较好(流程和文件已经数字化并由算法驱动)的场景中,直接驱动不同类型的 Agent 协助完成多种多样的任务。从这个角度看,Anthropic 专攻编程的 Claude Code,以及 OpenAI 的 GPT Codex 成为目前市场上最受欢迎的 Agent 产品,并非偶然。

说它是特例,是因为编程场景在模型的后训练环节具备极大优势:一是确定的信号反馈——模型生成的代码跑一遍,编译器、解释器、单元测试立刻可以给出精准、结构化、毫无歧义的对错判断;二是在这样的自动信号反馈基础上,可以高效形成自动的后训练闭环,将反馈毫无阻碍地接入强化学习回路,智能体在数字沙盒里高速生成、报错、自我修正。这样的自主训练环境在其他场景中很少见,甚至基本不可能形成。

一旦离开编程,模型训练的效率会大幅降低。在数字化程度相对较低、无法形成自动后训练闭环的传统商业世界——如管理决策、法律谈判、临床医疗、供应链物流——数据采集和结果验证成本会吃掉任何 token 经济。拿不到低成本反馈信号的智能体,也就无法完成指数级自我进化,难以重复其在编程上的巨大成功。

2023 年 2 月,A&O Shearman 率先与法律领域的垂直大模型公司 Harvey AI 达成独家战略合作,将后者开发的 AI 法律助手部署在其遍布全球的 43 个办公室。在为期数月的试用期内,A&O Shearman 全球的 3,500 余名律师向 Harvey 提交了约 40,000 次查询请求,涵盖合同起草、法规检索、尽职调查等多项法律工作流程,确实提高了工作效率。

但硬币的另一面是,A&O Shearman 在其官方新闻稿中明确指出,Harvey AI 生成的所有输出都需要经过执业律师的仔细审查后方可使用。AI 并未真正替代律师的专业判断,只是在原有工作流程之上新增了一个 AI 初审环节。资深合伙人在接收 AI 标注后的合同草案时,投入的复核时间几乎等同于从头审阅原始合同所需的时间。当然,人工审核的结果反馈是后续模型训练的高价值数据,但这样的反馈成本显然比编程那样的自动闭环高出太多。不能排除未来当反馈数据积累到某一临界点时,智能体在现实场景中的表现会大幅提升,甚至逼近或超越专业人士的水平。但与编程相比,这一临界点的来临还有相当长的路要走。

向物理世界的艰难跨越

法律工作任务的主要内容仍然是大量文字处理,是一个数字化水平较高、且肯定会被高度数字化的场景。当工作任务中可被数字化、可从数字世界中直接控制和操作的成分降低时,智能体能够完成的任务比例也会随之降低。虽然现实世界的设施大多由软件驱动,但单纯依靠智能体写代码来控制物理世界,仍然面临巨大的障碍。

以人形机器人的发展为例,虽然它们已经在马拉松比赛中超越了人类的最好成绩,但在大部分现实世界的任务中仍在艰难挣扎。清洁、搬运、开门、穿越杂乱场景——这些对人类来说轻而易举的动作,对机器人而言却是巨大挑战。Mora vec(1988 年)曾说:“让计算机在智力测验或下跳棋中表现出乘人水平的成绩相对容易,而要赋予它们一岁幼儿的感知与行动能力却极其困难,甚至不可能。”接近四十年后的今天,这句话的含金量仍在上升。李飞飞在长文《From Words to Worlds》中,把空间智能与具身智能列为需要更长时间才能成熟的中期目标。原因在于:现实世界没有编译器,物理世界不接受迭代,只接受验证,而验证的成本永远比生成的成本高。

曾被寄予厚望的仿真技术虽然起到了一定效果,但要实现类似 Agent 自适应在编程场景中的效能,还有很长的路要走。仿真技术是为了绕开物理世界没有编译器这个难题,用数字孪生和物理引擎搭一个虚拟验证空间。但具身智能的发展还是撞上了“虚拟与现实鸿沟”——在简化沙盒里靠海量 token 练出的最优控制轨迹,一碰上真实世界的摩擦、材料疲劳和环境噪声,立刻变得极其脆弱。Aljalbout 等人(2025 年)认为,仿真到现实的差距并非单一问题,而是由动力学差异、感知失真、执行器非线性、系统设计缺陷等多个子差距叠加而成,完美的仿真器在计算上是不可行的。

此外,仿真训练策略往往会利用建模中不准确但确定的边界条件,获得虚高的性能表现。但若部署到真实环境,这些策略往往并不可靠,甚至会带来风险。例如 OpenAI 的 Dactyl 灵巧手项目,用 64 块 NVIDIA V100 GPU 和 920 台 32 核 CPU 服务器在仿真中累计了相当于 13,000 年工作量的训练经验,使机械手操作方块达到了极高的成功率。但灵巧手在面对真实世界中非预设的材质、温度和磨损变化时,鲁棒性迅速下降。2021 年,OpenAI 解散了整个机器人团队。联合创始人 Wojciech Zaremba 在解释这一决定时表示,资源需要转移到更容易取得成就的领域。尽管官方未将 Sim-to-Real Gap 列为主因,但行业普遍认为,仿真训练的高昂算力成本与真实部署的不确定性之间的矛盾,是促使 OpenAI 放弃机器人方向的重要因素之一。

在真实的物理世界验证模型表现,时间和资本成本比虚拟世界高出几个数量级,而这样的真实测试是无法被取代的。这种非对称的验证成本从一个侧面说明了编程场景的特殊性——算法不是万能的,token 也不是。

如果 token 的有效应用范围长期局限于编程和少数数字场景,始终无法跨越从数字世界到物理世界的鸿沟,那么 AI 产业化和产业 AI 化的可持续性就要打一个大大的问号。Token 经济的未来,取决于我们能否把 token 的有效射程从数字孤岛拓展到更广阔的真实世界。在物理世界的真实需求爆发之前,token 不经济可能会持续很长时间。

Token 不经济的溢出风险

Token 不经济在整个 AI 产业链条上的分布并不均衡。上游基础设施和硬件厂商在当下的固定资产投资热潮中赚得盆满钵满;中游的模型厂商仍在比拼产品性能,高昂的资本支出挤压着现金流;下游的应用效果则因人而异、因场景而异,大部分企业仍在持币观望。产业链风险正在向中游聚集,而中游的模型厂商正在资本市场建立起一个个循环融资的小圈子。持续累积的 token 不经济风险一旦爆发,必然会牵动金融市场,甚至影响民生稳定。

产业链风险的不均衡分布

Token-Agent 热潮拉动了巨额资金投向上游的数据中心、网络和芯片制造,以及电力和能源基础设施。台积电 2026 年资本支出预计达 520 至 560 亿美元;微软、Alphabet、亚马逊与 Meta 在 2025 至 2026 年的 AI 基建投入合计远超 3000 亿美元,并向逼近 7000 亿美元的量级攀升。中游的大模型厂家是本轮 AI 投资浪潮的发动机、所有有关 AI 乐观预期的锚点、“全村的希望”。但主要厂商虽然营收爆发增长,却仍深陷亏损,算力采购成本居高不下。OpenAI 预计要到 2030 年前后才可能实现盈利。而下游真正在用 Agent 干活、真正在烧 token 的企业用户已经开始控制成本。既然尚未看到合理回报,那么为 token 设预算上限、做成本归因、收紧使用许可,都是顺理成章的管理动作。

我们对比了 AI 产业链上下游具有代表性的上市公司过去两年的自由现金流(FCF = 经营性现金流 - 资本支出)变化和最近一年的净利润率(图4)。2025 年,处于产业链上游的台积电(44.5%)和英伟达(55.6%)不仅净利润率更高,自由现金流更取得了 14.5% 和 58.8% 的高速增长。相比之下,处于产业链下游的亚马逊、微软和 Meta 虽然净利润率与往年持平甚至有所提升,但自由现金流分别下降了 76.6%、14.8% 和 3.4%,主要受到资本支出大幅上升的影响。Token 金矿尚未探明,挖金子的还在投钱,而卖铲子的已经赚得盆满钵满。

这样的情况在历史上多次重演。产业革命初期,随着新技术兴起,需求先在投资端和产业上游爆发,中游的巨额资本支出变成上游的巨大利润,而下游的最终消费方兴未艾,尚不足以支撑中游企业的产能扩张。风险向产业中游汇聚,资本与产能跑在了真实付费需求之前。短期看,估值回调、产能闲置、部分参与者出局几乎难以避免;长期看,只要底层需求最终成形,那些超前建造的数据中心、芯片与网络还是会有用武之地,成为支撑经济增长的生产力底座。对于社会大众和监管者来说,需要防范产业链风险通过金融市场向外传导,避免风险外溢导致经济大幅波动。

图4:AI 产业链上下游自由现金流增速与净利润率对比(FY2025—2026)。数据来源:各公司年报,10-k SEC filing。绘图:Codebuddy

循环融资与影子信贷

产业链风险向中游模型厂商集中,而部分中游的模型厂商与上游硬件企业玩起了循环融资,让人看不透这到底是技术驱动的真实增长,还是资本自循环支撑的估值游戏。例如,OpenAI 与英伟达、甲骨文组建的“AI 永动机”:先由 OpenAI 接受英伟达的战略投资(原本承诺投资 1000 亿美元,后转为 OpenAI 新一轮融资的参与者,投资额也大幅缩减),再由 OpenAI 用融得的资金向甲骨文购买云服务(两家签署为期 5 年、总价值约 3000 亿美元的算力购买合同),最后甲骨文把 OpenAI 的付款承诺用于增信,发债融资向英伟达购买 GPU 用于算力中心建设,完成资金闭环。每一步似乎都有合理的商业逻辑,但每一步都让人觉得过于“超前”。

OpenAI 的算力采购框架加总起来已突破 1 万亿美元,与其当下 330 亿美元的年化营收(截至 2026 年 5 月 ARR)不匹配,完全是基于对未来高增长的预期。一旦下游 token 终端消费不能带来模型厂商收入的指数级增长,“承诺”就会变成“泡沫”。而 token 终端消费的预期似乎并不乐观。据 Bain & Company 的测算,要消化掉到 2030 年新增的 200 GW 算力,终端消费需要创造出每年约 2 万亿美元的新增营收。但即便算上 AI 带来的成本节约,仍有约 8000 亿美元的缺口。

这样的循环融资游戏在世纪之交的互联网泡沫时代也出现过,但今天的估值泡沫有一半藏在不透明的私人信贷市场里,更难确切掌握潜在风险。美联储加息抬高了初创企业、杠杆收购等高风险债券市场的利息,银&行在巴塞尔协议的要求下不得不退出这一市场,为私募机构留下了空间,最终催生出一个规模约 3 万亿美元的美国私人信贷市场。

Apollo、Ares、Blue Owl、KKR、Blackstone 等资管机构用 BDC(商业发展公司)和直接贷款,为数据中心建设提供 20-30 年期的杠杆融资。这些贷款往往通过私下谈判达成,用模型来定价(mark-to-model),可能出现期限错配(为 LLM 这样按月迭代的技术匹配未来 30 年现金流),同时因模型厂商缺现金,往往是实物支付利息(PIK,利息直接滚入本金),风险叠加且不易觉察。

国际清算银&行的一份报告指出,目前股权一级和二级市场已经把 AI 产业链的上行空间充分定价,但债务市场还没把下行风险定价进去。一旦下游需求释放缓慢,营收不及预期,循环融资的估值逻辑将瓦解(股权压缩),私人信贷里的模型被迫重估(信贷减值),泡沫破裂、股债双杀的风险骤增。

资源饥渴挤压其他需求

Token 消耗催生的算力扩张,让算力中心对水、电等资源极度饥渴,往往在短期内制造出巨大的供给缺口,对所在地的民生用水用电产生挤压效应。

美国弗吉尼亚州北部的“数据中心巷”集中了全球密度最高的数据中心集群,承载了约 70% 的全球互联网流量。由于地方电网容量被科技公司用长期趸售协议提前锁定,居民和传统商业的能源配额被严重压缩。据弗吉尼亚州联合立法审计与审查委员会 2024 年 12 月发布的报告,数据中心的耗电量已经超过了弗吉尼亚州最大核电站发电量的两倍以上。仅满足劳登县已规划或在建数据中心的能源需求,就需要在 2030 年前向电网增加相当于数座核电站的发电能力。

数据中心对高压输电线路和清洁能源的疯狂抢购,迫使地方公用事业公司斥巨资升级电网。Dominion Energy 计划在未来十五年内投资数十亿美元用于电网扩容。这笔巨额基建成本最终将以电网维护费、容量费用等形式摊派到居民月度账单上。Dominion 服务区域内的容量拍卖价格已从 29 美元/MW-天飙升至 444 美元/MW-天,涨幅超过 1400%,直接反映了电网发电和输电容量的严重稀缺。皮德蒙特环境委员会对 Dominion Energy 综合资源计划的分析显示,在该计划覆盖期内,普通居民的电费账单可能翻倍。

算力扩张对日常需求的挤出效应不仅限于弗吉尼亚。爱尔兰都柏林、新加坡裕廊、我国贵州等全球主要算力节点都曾经历过类似的矛盾。从这个意义上说,token 不经济不仅存在于数字世界,在现实生活中也投下了长长的阴影。

寻找 Token 价值方程式

Token 是智能时代最基本的生产要素之一。与其他所有生产要素——土地、数据、资本、人力——一样,只要存在资源错配和要素浪费,就必然会有所谓“不经济”的存在。从这个意义上说,token 不经济不会只是 AI 产业链爆发初期的暂时现象,而是与 token 经济并存,贯穿在智能经济发展的始终。在具体的当下,token 经济尚未完全展现,因此 token 不经济相对较为突出。

始终存在并不意味着要放任自流。我们可以从供给和需求两端施力,降低 token 不经济,强化 token 经济,让技术的发展真正转化为实在的经济价值。供给侧可以通过精细化技术手段降低单位 token 成本,堵住跑冒滴漏,防止风险扩散;需求侧可以通过不断发掘新的应用场景,让 token 花出价值来。当供给端的成本下行曲线与需求端的价值上行曲线形成交叉时,token 经济和不经济互相抵消后的净收益便可由负转正。

技术面的精细化变革

上下文缓存与语义压缩。

上下文缓存已经成为模型厂商的通用做法。当多智能体流水线频繁命中历史缓存时,输入 token 的计费大幅压减。但这一做法也有局限性,在复杂的企业级部署中,由于 Agent 路径高度分叉导致的缓存色散失效,实际成本节省的效果相对有限。更根本的解法在于上下文压缩——不是简单地滑动截断历史信息,而是进行语义层面的主动压缩,保留关键指令和推理链路,去掉重复与冗余。这种语义上下文压缩能够在保护指令遵循率的同时,显著减少输入 token 的消耗。

技能优化与减法思维。

Gao 等人(2026 年)的 SkillReducer 研究提供了技能优化的两条路径。一是描述压缩——为缺少路由描述的技能补充精简信息,压缩冗余的背景解释和示例;二是渐进式加载——不一次性把完整技能塞入上下文,而是按需加载,可实现 39% 的技能体压缩。两者叠加后,在大幅压减技能调用的 token 消耗的同时,模型功能质量反而提升了 2.8%。从中可以看出,Agent 技能调用不是越多越好,必要时做减法的收益远大于做加法。减少上下文中的无效信息,不仅能降低 token 消耗,还能提升模型输出的准确性。Less is more——在此处不仅符合代码之美,也让 token 更经济。

模型路由与任务分流。

“大模型杀鸡用牛刀”是 token 浪费的重要原因之一。按任务复杂度做自适应模型路由,把简单、高频的子任务甩给具备特定领域能力的开源轻量模型,只在关键决策点才动用昂贵的 Frontier 模型。这样分层调用,能大幅压低单位任务的平均 token 成本,又不牺牲关键环节的质量。

多 Agent 预算硬约束与主持人架构。

没有分工、预算上限和明确停止条件的多 Agent 系统,演变成马拉松式“茶话会”的概率大大增加。解决的路径是在多智能体协同网络中设计具备硬性预算约束与异步仲裁机制的主持人架构。Luo 等人(2026 年)提出的蒙特卡洛树搜索方法,在多智能体流程中加入中间步骤的工具验证,保存候选状态,必要时回滚。我们可以将这种思路从推理层面提升到架构层面——为每个子任务设定 token 预算上限,由主持人 Agent 监控全局消耗,在预算耗尽前强制终止无效循环。这不仅能防止财务失控,往往也会同时提升系统的整体效率。

商业面的价值锚定

Token 治理与成本纪律。

微软限制 Claude Code、Meta 撤下 token 消耗排行榜——大厂已经从对 token 消耗的单纯鼓励转向强调 token 产出和成本纪律性。配额、审批、模型路由、成本归因、团队账单——未来这些措施大概率会成为企业 AI 治理的基本方式。这是 AI 进入生产系统后的必经阶段。即便 AI 是促进创新和加速生产的有力工具,也必须把账算清楚:用了多少 token,产生了多少可验证产出,造成多少返工,都要被计量。没有计量就没有管理,没有上限就没有纪律。真正先进的公司,考核的不是“谁用 AI 最多”,而是“谁用最少的 token 完成了最多的工作”。

配给制会成为常态。企业不会无限供给 Token,而是会像管理云计算资源一样,设定预算池和审批流程。这种治理并不与技术创新对立,恰恰相反,配给制会倒逼架构师设计更高效的 Agent 系统,将成本约束内化。

找到 token 大规模商业应用的现实场景。

这是实现 token 净收益转正的根本。编程和智能体架构只是迈向 token 经济的一小步。寻找到可以产生巨大生产力跃迁的商业场景,才是进入 token 经济发展快车道、实现巨大经济价值创造的前提条件。目前,在真实的商业场景中大规模应用智能体架构并带来巨大收益的案例仍然较少,且多为个案。能广泛应用于其他企业、其他行业的通用性解决方案仍在酝酿中。

具身智能和数字孪生是拓展方向之一,但必须正视 Sim-to-Real Gap 带来的非对称验证成本。更务实的路径是在传统行业中寻找具备“弱确定性反馈”的中间地带,如辅助诊断中的影像筛查(有影像学标准可参照)、供应链中的需求预测(有历史数据可回测)、法律领域中的合同初筛(有条款模板可比对)。这些场景的验证成本虽不如编译器那样趋近于零,但远低于纯粹的物理世界验证,有望成为 token 经济从数字沙盒走向真实世界的桥梁。OpenAI 近期重新开始进行机器人研究,也说明具身智能虽难,但始终无法绕开。

回归 ROI

任何所创造价值超过所花费成本的投入,无论技术多么先进,终将不可持续。Token 不经济不是技术失败,而是技术走向大规模生产时经常遭遇的暂时困境。正如工业革命初期的蒸汽机,效率低下、煤耗惊人,但这并不能否定蒸汽机代表生产力发展的未来方向。通过不断改良热效率、拓展应用场景,蒸汽动力最终成为驱动第一阶段工业革命的最根本力量。今天的 token 和 Agent 架构正如早期的蒸汽机——噪音大、油耗高,但在特定场景下已展现出远超人力的潜力。其后续发展必然是一场接一场从粗放到精细的技术革新。未来更有价值的 Agent,不是思维链最复杂的 Agent,而是用最少 token 把事做成的 Agent。当行业从“以多为荣”的炫技阶段进入“以精为贵”的生产阶段,当每一枚 token 的消耗都必须回答“产出有何价值”时,token 回归 ROI 的金标准,智能体时代也就找到了自己的价值方程式。