首页 > 教程攻略 > ai资讯 >Token 降价的尽头，是一度电的账

Token 降价的尽头，是一度电的账

来源：互联网时间：2026-07-01 16:08:05

AI 开始进入算账阶段

过去一年，模型厂商们不约而同地砍价，DeepSeek、通义千问、智谱、MiniMax 这些国内大模型，把 Token 价格拉到了一个谁也没想到的区间。表面上看，这是各家厂商为了抢份额搞的肉搏战。可要是往下挖一层，你会发现每个 Token 背后，都牵着一条从电力、土地、机柜、制冷、网络、存储、GPU 调度，一直到企业怎么用的长链条。

Token 降价的尽头，是一度电的账

先说一个核心判断。优刻得 CEO 季昕华面对 InfoQ 采访时，提到现在企业老板最操心的三件事：怎么让员工真正用上 AI、用着用着发现成本太高怎么办、到底怎么才能提效。说白了，AI 不是不用了，是开始精打细算了。

Token 成本这件事，可不是简单看看 API 标价就能算清楚的。它正在变成一场贯穿“电力—算力—模型—应用—组织”的全链路工程。

优刻得当年跑去乌兰察布建数据中心，还真不是冲着 AI 去的。据公司副总裁刘杰回忆，2017 年筹划这事时，AI 还没影子呢。当时琢磨的是 CPU 业务，第一栋楼也是按 CPU 方案规划的，后面才慢慢转向 GPU。当时的想法很简单，就是把乌兰察布当成服务北京的“前店后厂”——北京是前台，乌兰察布提供便宜、低时延的后台支撑。

说到选址，也不是拍脑袋决定的。季昕华提到一个有意思的细节：当年苹果在国内选数据中心，觉得优刻得技术不错，就拉上他们一起看地方。团队跑遍了贵州、四川、重庆、青海、宁夏、甘肃，最后一路看到内蒙古，发现乌兰察布简直就是为数据中心量身定做的。原因很直接：电便宜；苹果要求 100% 绿电，内蒙古有这个机会；天冷，PUE 好做；离北京近，时延和人流都方便。

这些条件在云计算时代就已经很关键了，放到 AI 时代，更是命门所在。因为 AI 最终会把所有成本打穿到电力上。季昕华说得直白：Token 的终局是电力。电便宜，Token 就便宜。内蒙古的优势，说白了就在这里。

现场交流时，刘杰算了一笔账：一台某国外顶级服务器，功耗大约 6.5 千瓦，通常配 8 张 GPU 卡。一个千卡集群大概需要 125 台这样的服务器。光服务器本身，一年耗电就已经是个吓人的数字；再乘上 PUE 系数，才是数据中心真正要承担的总用电。这么一算，数据中心选址、电价、PUE、高功率机柜，每一个环节都直接决定了 Token 成本。

以前 IDC 行业喜欢讲“柜子”，比谁家机柜多。可到了 AI 时代，“多少个柜子”已经不太能说明问题了。优刻得青浦数据中心大约 42 亩地，设计容量约 5000 个机柜；乌兰察布园区约 212 亩地，设计容量约 12000 个机柜。但关键不在于数量，而在于机柜的功率密度。传统低功率机柜和高功率机柜完全是两码事。大模型训练和推理需要更高的功率密度，普通机柜根本放不下多台高功耗 GPU 服务器。单机柜供电能力、散热能力、网络布线、液冷能力，这些都在重新定义数据中心的价值。

现场交流透露，液冷单机柜能做到 35 千瓦，这背后是专用的电路和散热系统改造。

如何真正降低 Token 成本？

这也是为什么现在有些传统低功率数据中心开始空置，而高功率数据中心却供不应求。季昕华提到，国内一些低功率数据中心空闲率挺高，但像优刻得这种高功率数据中心，还没建起来，订单就已经等着了。他判断，新建数据中心的前几栋楼，满载率会非常高，因为已经有签约订单了。

数据中心的成本竞争，正在从“有没有楼”转向“能不能承载 AI”。

乌兰察布的优势还不只是便宜电。这里海拔高，年均温度低，制冷能耗天然就低。PUE 这个指标，简单说就是数据中心总用电里，真正用于服务器计算的比例越高，PUE 越低。气温低，制冷能耗下降，PUE 自然就好做。

另外，乌兰察布的能源结构相对多元，风电、光电、煤电都有，供电更稳。对于 AI 数据中心来说，电便宜固然重要，但稳定电力比什么都关键。GPU 集群最怕的不是贵一点，而是中断和不稳定。训练任务一旦中断，损失的不只是电费，还有时间、算力窗口和客户信任。

所以，Token 降本的第一层答案，其实很朴实：选对地方，把电力成本压下来，把 PUE 做下来，把高功率机柜建起来。

但这只是开了个头。

季昕华在谈降本时，给出了几个非常务实的思路。第一个方向，是用国内模型。相比海外模型，DeepSeek 等国产模型在价格上优势明显，智谱、MiniMax 这些厂商能力也在持续提升。对很多企业应用来说，并不是所有任务都要请最贵的模型。一个 85 分的模型在特定任务上确实更好，但如果 80 分的模型也够用，成本相差很大，那显然选后者更明智。

第二个方向，是从技术上提高“每度电产生的 Token 数量”。这句话把 AI 成本拉回到了基础设施效率的核心。以前大家喜欢讨论每百万 Token 多少钱，但真正决定长期成本的，是每一度电最终能转化为多少有效 Token。GPU 利用率、推理框架、模型部署、网络通信、存储读写，这些都直接影响结果。

第三个方向，是选对数据中心的位置。像内蒙古这种电力和气候条件优越的地方，能在底层成本上形成优势。乌兰察布更适合训练，也能覆盖北方大部分推理需求；上海青浦则更适合华东地区对时延敏感的业务，比如金融、汽车，也适合部分推理。这其实就是“东数西算”的分工逻辑：不是所有算力都要离用户最近，也不是所有算力都适合放在西部，得按任务类型来拆分。

第四个方向，是模型组合。季昕华强调，不同模型有各自的能力边界，企业不能指望一个模型包打天下。有的模型适合前端代码，有的适合后端，有的测试能力强，有的适合需求分析或写作。未来更合理的做法，是把一个任务拆开，让不同模型处理各自擅长的部分，甚至可以由平台自动帮用户选模型。这一点很关键——AI 降本不等于一味用便宜模型，而是在“效果”和“成本”之间做动态路由。一个复杂任务里，真正需要顶级模型处理的部分可能只有 20%，其他部分交给更便宜、更快的模型就行。这才是企业级 AI 应用的真实降本路径。

第五个方向，是 Prompt 管理和 Prompt Engineering。很多企业一边喊 AI 成本高，一边却没建立内部使用规则。员工怎么提问、调用什么模型、是否复用模板、是不是重复调用、是不是把简单问题扔给贵模型，这些都会直接影响 Token 消耗。季昕华提到，让员工按规则用好 Token，也是降本的重要手段。

这就从基础设施层面推进到了组织管理层面。企业真正的问题不是“有没有 AI”，而是“AI 花出去的钱到底有没有产生价值”。

优刻得内部每天都看 AI 使用报告，包括多少员工用了 AI、花了多少钱、用在了什么场景。Coding 是消耗大户，查询、PPT 等场景也在增长。但最大的问题，是如何衡量这些投入的产出。这恐怕是所有企业都绕不开的难题。

AI 工具铺开后，会出现三类情况：第一，很多员工还在摸索怎么用，效果不稳定；第二，有些调用不是为了公司业务，而是个人使用；第三，真正用于公司工作的部分，到底提效多少，还得评估。优刻得正在做一个产品，帮企业分析员工使用 AI 是否用于公司业务，使用效率高不高。

Token 需求不会只是一次热闹

这其实是 Token 时代企业管理的新命题。SaaS 时代，企业买软件，通常按账号、席位、模块付费。员工越活跃，往往说明软件价值越高。但 AI 不一样，用得越多，成本越高。如果没有治理体系，老板推动 AI 后很快就会尴尬：觉得没提效，但账单涨了一大截。

因此，便宜 Token 的另一面，不是无限调用，而是 Token 治理。这也是为什么季昕华把“如何让老板评估 Token 的效益”看作当前最大挑战之一。

AI 进入企业，不只是技术升级，还会倒逼生产关系调整。未来组织里，高层更需要回答“做什么”和“为什么做”，AI 则更多解决“怎么做”，中间还需要懂业务、懂架构的人来驾驭 AI，避免跑偏。

他甚至谈到，AI 时代的人才观也会变。过去企业招聘更看重经验，但有了 AI 后，学习新技术的门槛降低了。主动性、好奇心、自我反思能力、业务理解，可能变得比单纯经验更重要。因为 AI 每天都在变，真正稀缺的不再只是“会不会写代码”，而是能不能判断问题、拆解任务、驾驭工具，并把 AI 产出落到业务结果上。

这也解释了为什么 Token 需求不会只是一次热闹。季昕华判断，Token 增长是长期趋势。年初某些现象级智能体应用带动了普通用户快速体验 AI，但热潮退去，Token 量仍在增长。原因很简单：AI 能力在提升，尤其是 Coding 能力让 AI 真正进入“干活”阶段；视频、图片模型让短剧、漫剧等内容生产释放出大量需求；广告营销、市场推广、财务、HR 等企业内部岗位开始使用 AI；此外，录音转会议纪要、智能眼镜、智能戒指等硬件也在持续消耗 Token。

这几个需求有一个共同点：它们不是单次尝鲜，而是工作流、内容流和硬件入口的持续消耗。其中，Coding 是最明确的增长场景。AI 写代码能力提高后，企业内部研发效率和工作方式会改变。后端工程师可以借助 AI 快速写前端，测试和运维边界也被打通，非研发人员也能用 AI 完成部分过去无法独立完成的工作。

图像、视频、漫画、短剧则是另一类大户。生成式内容计算密集、调用频繁、结果需要反复调整，天然产生大量 Token 和算力需求。再往外看，AI 硬件把调用入口延伸到录音设备、眼镜、汽车、戒指等终端，一旦硬件入口铺开，算力需求会更加碎片化、常态化。这也解释了为什么高功率数据中心会持续供不应求。

AI 发展最大瓶颈：物理基础设施跟不上

季昕华把国内外的瓶颈做了区分：国内最大问题是缺卡，海外则是缺数据中心。国内 GPU 供应受限，所以先得找到卡；找到卡之后，还得有高功率数据中心来承载。海外很多区域算力基础设施远落后于中国，除了美国之外，不少国家当前反而有大量存储需求，比如数字城市、视频监控数据存储等。

国内基础设施瓶颈主要有三个：卡的瓶颈、数据中心审批和统一管控的挑战、以及旧基础设施上的电和水的挑战。中国不缺电，但电力配套要跟着产业发展走。比特世界的需求可以指数级增长，但物理世界是原子世界，电网、水、机房、设备交付、施工周期都有现实约束。

这句话很适合作为观察 AI 基础设施的底层逻辑：数字需求跑得太快，物理供给跟不上。

在物理供给里，国产算力也是个绕不开的话题。季昕华认为，国产 GPU 这几年在国家支持和市场需求引导下，性能提升很快，已经到了“可用状态”，但整体性能和海外高端产品仍有差距。不过，美国限制反而推动国内大模型公司和硬件厂商加快适配，未来效率会越来越高。优刻得方面提到，客户对国产算力的明确需求，更多体现在希望国产算力与模型加速适配上。英伟达已经形成自成体系的生态，国产算力要真正起来，不能只靠单卡参数，而要形成模型、框架、工具链和应用端的生态闭环。

这也意味着，国产算力降本不是简单替代英伟达，而是模型和硬件共同适配后的系统优化。

从这个角度看，AI 基础设施的瓶颈总是在移动。季昕华解释得很形象：Token 生产是由很多组件共同完成的。最开始可能觉得 GPU 不够，于是提升 GPU；GPU 提升后，发现内存成瓶颈；内存做大后，又发现卡与卡之间的网络连接成瓶颈，光通信、互联技术开始重要；网络解决后，CPU 调度又跟不上；再往后，不同机器之间、不同机房之间的连接又会成为新挑战。整个系统的工作，就是不断找到瓶颈、突破瓶颈，然后迎接下一个瓶颈。主要矛盾解决后，次要矛盾就会变成新的主要矛盾。

这其实是 AI 基础设施行业最真实的一面：它不是单点技术革命，而是连续的系统调优。

比如跨数据中心推理。一些算法正在尝试在不同数据中心间实现推理调度，这样能把分散的算力利用起来，但新的瓶颈会变成带宽和延迟。训练目前还不适合这样做，但推理有机会。又比如分布式推理，目前最大的瓶颈不在时延，而在算力资源不足。生图几秒返回、生视频几十秒返回，大多数用户可以接受。反而如果把算力分散到各地，可能导致资源浪费：某个城市节点使用率只有 70% 或 80%，空闲资源却无法被其他地方共享。

所以当前主流仍然是集中式。未来更可能在边缘侧做缓存，有点像 CDN，通过“以存代算”减少重复计算。例如多个用户问同一个天气问题，答案相同，就不必每次都重新推理，直接从本地缓存返回。但这套模式还没完全收敛。这说明，AI 推理并不会简单复制互联网时代的边缘计算路径。它既要考虑时延，也要考虑算力利用率。当前算力仍然稀缺，把资源集中起来，往往比过早分散更经济。

做中立的 Token 供应商

优刻得在这里找到的定位，是做一个中立的算力和模型服务平台。季昕华说，优刻得今天已经不只是传统意义上的云计算公司，而是扩展成一家数字化公司，云、大数据和算力是技术手段。面对 AI 时代，其目标是发挥中立性质，帮助大家更好地用好 AI，也帮助 AI 公司更好地发展。

中立性过去是优刻得面向游戏、电商等行业客户的标签。游戏公司可能不愿意用腾讯云，电商公司可能顾虑阿里云，因为有业务竞争。到了 AI 时代，这种中立性被重新放大。阿里有通义千问，腾讯有混元，字节有豆包。对创业型大模型公司来说，选择一家相对中立的第三方云厂商，更容易获得资源支持，也能减少潜在竞争顾虑。季昕华提到，优刻得在 Token 层面也可以保持中立，接入多个 Token 来源，为客户选最合适的。

从客户结构看，优刻得面临的算力需求主要来自几类：第一类是基础模型公司，比如智谱、MiniMax、DeepSeek 等，需要大量卡做训练和推理；第二类是行业模型公司，比如金融、证券等有自己数据的公司，需要在基础模型上训练行业模型；第三类是手机、汽车等智能终端；第四类是各种应用场景；第五类是科学计算。

这些客户未必都有能力自建大规模数据中心，也未必都能从巨头那里获得足够细致的资源和技术支持。优刻得的差异化在于，不只是提供机柜，也不只是卖云主机，而是试图提供从数据中心、高功率机柜、GPU 算力、模型部署、Token 计费到企业 AI 使用治理的一整套能力。

这条路并不轻松。AI 基础设施本质上是重资产。数据中心建设要土地、楼宇、机电、UPS、柴发、制冷、液冷和高功率机柜；GPU 和 AI 服务器价格仍在波动；客户希望成本下降，但上游设备并不便宜。现场交流提到，硬件价格上涨很快，但终端客户拿到的算力租赁价格并没有同步上涨，中间压力需要云厂商和算力服务商消化。

同时，数据中心标准也需要调整。季昕华提到，现有数据中心标准已经落后于 AI 行业发展。现在很多高等级标准要求双路供电、两路 UPS、两路柴发等冗余设计，但并不是所有 AI 产品都需要这么高标准。未来不同业务可能需要更精细化的数据中心标准，而不是所有负载都按最高标准建设。这也意味着，AI 基础设施的降本不只是“压价格”，还包括重新定义什么业务需要什么等级的基础设施。

比如训练任务对稳定性要求极高，但部分推理任务可能对冗余要求没那么高；金融和汽车等敏感业务适合放在青浦等靠近客户的区域，普通推理和训练任务则可以放在乌兰察布这种电力成本更优的区域。任务分层、资源分层、模型分层，都会成为未来 Token 降本的一部分。

所以，Token 价格战背后的真实战场，已经从模型 API 页面，转移到了电力、数据中心和算力系统深处。当企业真正开始把 AI 放进代码、营销、财务、HR、会议纪要、智能硬件和行业模型，Token 就不再是技术圈里的抽象单位，而会变成企业账本上的真实支出。而谁能把一度电更高比例地转成有效算力，把一张 GPU 跑出更多有效 Token，把不同模型组合成更低成本的工作流，把员工的 AI 使用变成可衡量的业务产出，谁才有机会在下一轮 AI 基础设施竞争中留下来。

Token 便宜的尽头，不只是模型降价。是电力，是算力，是工程能力，也是企业重新学会怎么用 AI。

Token 降价的尽头，是一度电的账

AI 开始进入算账阶段

如何真正降低 Token 成本？

Token 需求不会只是一次热闹

AI 发展最大瓶颈：物理基础设施跟不上

做中立的 Token 供应商

相关阅读

相关下载