首页 > 教程攻略 > ai资讯 >Token 降价的尽头,是一度电的账

Token 降价的尽头,是一度电的账

来源:互联网 时间:2026-07-01 16:08:05

AI 开始进入算账阶段

过去一年,模型厂商们不约而同地砍价,DeepSeek、通义千问、智谱、MiniMax 这些国内大模型,把 Token 价格拉到了一个谁也没想到的区间。表面上看,这是各家厂商为了抢份额搞的肉搏战。可要是往下挖一层,你会发现每个 Token 背后,都牵着一条从电力、土地、机柜、制冷、网络、存储、GPU 调度,一直到企业怎么用的长链条。

Token 降价的尽头,是一度电的账

先说一个核心判断。优刻得 CEO 季昕华面对 InfoQ 采访时,提到现在企业老板最操心的三件事:怎么让员工真正用上 AI、用着用着发现成本太高怎么办、到底怎么才能提效。说白了,AI 不是不用了,是开始精打细算了。

Token 成本这件事,可不是简单看看 API 标价就能算清楚的。它正在变成一场贯穿“电力—算力—模型—应用—组织”的全链路工程。

优刻得当年跑去乌兰察布建数据中心,还真不是冲着 AI 去的。据公司副总裁刘杰回忆,2017 年筹划这事时,AI 还没影子呢。当时琢磨的是 CPU 业务,第一栋楼也是按 CPU 方案规划的,后面才慢慢转向 GPU。当时的想法很简单,就是把乌兰察布当成服务北京的“前店后厂”——北京是前台,乌兰察布提供便宜、低时延的后台支撑。

说到选址,也不是拍脑袋决定的。季昕华提到一个有意思的细节:当年苹果在国内选数据中心,觉得优刻得技术不错,就拉上他们一起看地方。团队跑遍了贵州、四川、重庆、青海、宁夏、甘肃,最后一路看到内蒙古,发现乌兰察布简直就是为数据中心量身定做的。原因很直接:电便宜;苹果要求 100% 绿电,内蒙古有这个机会;天冷,PUE 好做;离北京近,时延和人流都方便。

这些条件在云计算时代就已经很关键了,放到 AI 时代,更是命门所在。因为 AI 最终会把所有成本打穿到电力上。季昕华说得直白:Token 的终局是电力。电便宜,Token 就便宜。内蒙古的优势,说白了就在这里。

现场交流时,刘杰算了一笔账:一台某国外顶级服务器,功耗大约 6.5 千瓦,通常配 8 张 GPU 卡。一个千卡集群大概需要 125 台这样的服务器。光服务器本身,一年耗电就已经是个吓人的数字;再乘上 PUE 系数,才是数据中心真正要承担的总用电。这么一算,数据中心选址、电价、PUE、高功率机柜,每一个环节都直接决定了 Token 成本。

以前 IDC 行业喜欢讲“柜子”,比谁家机柜多。可到了 AI 时代,“多少个柜子”已经不太能说明问题了。优刻得青浦数据中心大约 42 亩地,设计容量约 5000 个机柜;乌兰察布园区约 212 亩地,设计容量约 12000 个机柜。但关键不在于数量,而在于机柜的功率密度。传统低功率机柜和高功率机柜完全是两码事。大模型训练和推理需要更高的功率密度,普通机柜根本放不下多台高功耗 GPU 服务器。单机柜供电能力、散热能力、网络布线、液冷能力,这些都在重新定义数据中心的价值。

现场交流透露,液冷单机柜能做到 35 千瓦,这背后是专用的电路和散热系统改造。

如何真正降低 Token 成本?

这也是为什么现在有些传统低功率数据中心开始空置,而高功率数据中心却供不应求。季昕华提到,国内一些低功率数据中心空闲率挺高,但像优刻得这种高功率数据中心,还没建起来,订单就已经等着了。他判断,新建数据中心的前几栋楼,满载率会非常高,因为已经有签约订单了。

数据中心的成本竞争,正在从“有没有楼”转向“能不能承载 AI”。

乌兰察布的优势还不只是便宜电。这里海拔高,年均温度低,制冷能耗天然就低。PUE 这个指标,简单说就是数据中心总用电里,真正用于服务器计算的比例越高,PUE 越低。气温低,制冷能耗下降,PUE 自然就好做。

另外,乌兰察布的能源结构相对多元,风电、光电、煤电都有,供电更稳。对于 AI 数据中心来说,电便宜固然重要,但稳定电力比什么都关键。GPU 集群最怕的不是贵一点,而是中断和不稳定。训练任务一旦中断,损失的不只是电费,还有时间、算力窗口和客户信任。

所以,Token 降本的第一层答案,其实很朴实:选对地方,把电力成本压下来,把 PUE 做下来,把高功率机柜建起来。

但这只是开了个头。

季昕华在谈降本时,给出了几个非常务实的思路。第一个方向,是用国内模型。相比海外模型,DeepSeek 等国产模型在价格上优势明显,智谱、MiniMax 这些厂商能力也在持续提升。对很多企业应用来说,并不是所有任务都要请最贵的模型。一个 85 分的模型在特定任务上确实更好,但如果 80 分的模型也够用,成本相差很大,那显然选后者更明智。

第二个方向,是从技术上提高“每度电产生的 Token 数量”。这句话把 AI 成本拉回到了基础设施效率的核心。以前大家喜欢讨论每百万 Token 多少钱,但真正决定长期成本的,是每一度电最终能转化为多少有效 Token。GPU 利用率、推理框架、模型部署、网络通信、存储读写,这些都直接影响结果。

第三个方向,是选对数据中心的位置。像内蒙古这种电力和气候条件优越的地方,能在底层成本上形成优势。乌兰察布更适合训练,也能覆盖北方大部分推理需求;上海青浦则更适合华东地区对时延敏感的业务,比如金融、汽车,也适合部分推理。这其实就是“东数西算”的分工逻辑:不是所有算力都要离用户最近,也不是所有算力都适合放在西部,得按任务类型来拆分。

第四个方向,是模型组合。季昕华强调,不同模型有各自的能力边界,企业不能指望一个模型包打天下。有的模型适合前端代码,有的适合后端,有的测试能力强,有的适合需求分析或写作。未来更合理的做法,是把一个任务拆开,让不同模型处理各自擅长的部分,甚至可以由平台自动帮用户选模型。这一点很关键——AI 降本不等于一味用便宜模型,而是在“效果”和“成本”之间做动态路由。一个复杂任务里,真正需要顶级模型处理的部分可能只有 20%,其他部分交给更便宜、更快的模型就行。这才是企业级 AI 应用的真实降本路径。

第五个方向,是 Prompt 管理和 Prompt Engineering。很多企业一边喊 AI 成本高,一边却没建立内部使用规则。员工怎么提问、调用什么模型、是否复用模板、是不是重复调用、是不是把简单问题扔给贵模型,这些都会直接影响 Token 消耗。季昕华提到,让员工按规则用好 Token,也是降本的重要手段。

这就从基础设施层面推进到了组织管理层面。企业真正的问题不是“有没有 AI”,而是“AI 花出去的钱到底有没有产生价值”。

优刻得内部每天都看 AI 使用报告,包括多少员工用了 AI、花了多少钱、用在了什么场景。Coding 是消耗大户,查询、PPT 等场景也在增长。但最大的问题,是如何衡量这些投入的产出。这恐怕是所有企业都绕不开的难题。

AI 工具铺开后,会出现三类情况:第一,很多员工还在摸索怎么用,效果不稳定;第二,有些调用不是为了公司业务,而是个人使用;第三,真正用于公司工作的部分,到底提效多少,还得评估。优刻得正在做一个产品,帮企业分析员工使用 AI 是否用于公司业务,使用效率高不高。

Token 需求不会只是一次热闹

这其实是 Token 时代企业管理的新命题。SaaS 时代,企业买软件,通常按账号、席位、模块付费。员工越活跃,往往说明软件价值越高。但 AI 不一样,用得越多,成本越高。如果没有治理体系,老板推动 AI 后很快就会尴尬:觉得没提效,但账单涨了一大截。

因此,便宜 Token 的另一面,不是无限调用,而是 Token 治理。这也是为什么季昕华把“如何让老板评估 Token 的效益”看作当前最大挑战之一。

AI 进入企业,不只是技术升级,还会倒逼生产关系调整。未来组织里,高层更需要回答“做什么”和“为什么做”,AI 则更多解决“怎么做”,中间还需要懂业务、懂架构的人来驾驭 AI,避免跑偏。

他甚至谈到,AI 时代的人才观也会变。过去企业招聘更看重经验,但有了 AI 后,学习新技术的门槛降低了。主动性、好奇心、自我反思能力、业务理解,可能变得比单纯经验更重要。因为 AI 每天都在变,真正稀缺的不再只是“会不会写代码”,而是能不能判断问题、拆解任务、驾驭工具,并把 AI 产出落到业务结果上。

这也解释了为什么 Token 需求不会只是一次热闹。季昕华判断,Token 增长是长期趋势。年初某些现象级智能体应用带动了普通用户快速体验 AI,但热潮退去,Token 量仍在增长。原因很简单:AI 能力在提升,尤其是 Coding 能力让 AI 真正进入“干活”阶段;视频、图片模型让短剧、漫剧等内容生产释放出大量需求;广告营销、市场推广、财务、HR 等企业内部岗位开始使用 AI;此外,录音转会议纪要、智能眼镜、智能戒指等硬件也在持续消耗 Token。

这几个需求有一个共同点:它们不是单次尝鲜,而是工作流、内容流和硬件入口的持续消耗。其中,Coding 是最明确的增长场景。AI 写代码能力提高后,企业内部研发效率和工作方式会改变。后端工程师可以借助 AI 快速写前端,测试和运维边界也被打通,非研发人员也能用 AI 完成部分过去无法独立完成的工作。

图像、视频、漫画、短剧则是另一类大户。生成式内容计算密集、调用频繁、结果需要反复调整,天然产生大量 Token 和算力需求。再往外看,AI 硬件把调用入口延伸到录音设备、眼镜、汽车、戒指等终端,一旦硬件入口铺开,算力需求会更加碎片化、常态化。这也解释了为什么高功率数据中心会持续供不应求。

AI 发展最大瓶颈:物理基础设施跟不上

季昕华把国内外的瓶颈做了区分:国内最大问题是缺卡,海外则是缺数据中心。国内 GPU 供应受限,所以先得找到卡;找到卡之后,还得有高功率数据中心来承载。海外很多区域算力基础设施远落后于中国,除了美国之外,不少国家当前反而有大量存储需求,比如数字城市、视频监控数据存储等。

国内基础设施瓶颈主要有三个:卡的瓶颈、数据中心审批和统一管控的挑战、以及旧基础设施上的电和水的挑战。中国不缺电,但电力配套要跟着产业发展走。比特世界的需求可以指数级增长,但物理世界是原子世界,电网、水、机房、设备交付、施工周期都有现实约束。

这句话很适合作为观察 AI 基础设施的底层逻辑:数字需求跑得太快,物理供给跟不上。

在物理供给里,国产算力也是个绕不开的话题。季昕华认为,国产 GPU 这几年在国家支持和市场需求引导下,性能提升很快,已经到了“可用状态”,但整体性能和海外高端产品仍有差距。不过,美国限制反而推动国内大模型公司和硬件厂商加快适配,未来效率会越来越高。优刻得方面提到,客户对国产算力的明确需求,更多体现在希望国产算力与模型加速适配上。英伟达已经形成自成体系的生态,国产算力要真正起来,不能只靠单卡参数,而要形成模型、框架、工具链和应用端的生态闭环。

这也意味着,国产算力降本不是简单替代英伟达,而是模型和硬件共同适配后的系统优化。

从这个角度看,AI 基础设施的瓶颈总是在移动。季昕华解释得很形象:Token 生产是由很多组件共同完成的。最开始可能觉得 GPU 不够,于是提升 GPU;GPU 提升后,发现内存成瓶颈;内存做大后,又发现卡与卡之间的网络连接成瓶颈,光通信、互联技术开始重要;网络解决后,CPU 调度又跟不上;再往后,不同机器之间、不同机房之间的连接又会成为新挑战。整个系统的工作,就是不断找到瓶颈、突破瓶颈,然后迎接下一个瓶颈。主要矛盾解决后,次要矛盾就会变成新的主要矛盾。

这其实是 AI 基础设施行业最真实的一面:它不是单点技术革命,而是连续的系统调优。

比如跨数据中心推理。一些算法正在尝试在不同数据中心间实现推理调度,这样能把分散的算力利用起来,但新的瓶颈会变成带宽和延迟。训练目前还不适合这样做,但推理有机会。又比如分布式推理,目前最大的瓶颈不在时延,而在算力资源不足。生图几秒返回、生视频几十秒返回,大多数用户可以接受。反而如果把算力分散到各地,可能导致资源浪费:某个城市节点使用率只有 70% 或 80%,空闲资源却无法被其他地方共享。

所以当前主流仍然是集中式。未来更可能在边缘侧做缓存,有点像 CDN,通过“以存代算”减少重复计算。例如多个用户问同一个天气问题,答案相同,就不必每次都重新推理,直接从本地缓存返回。但这套模式还没完全收敛。这说明,AI 推理并不会简单复制互联网时代的边缘计算路径。它既要考虑时延,也要考虑算力利用率。当前算力仍然稀缺,把资源集中起来,往往比过早分散更经济。

做中立的 Token 供应商

优刻得在这里找到的定位,是做一个中立的算力和模型服务平台。季昕华说,优刻得今天已经不只是传统意义上的云计算公司,而是扩展成一家数字化公司,云、大数据和算力是技术手段。面对 AI 时代,其目标是发挥中立性质,帮助大家更好地用好 AI,也帮助 AI 公司更好地发展。

中立性过去是优刻得面向游戏、电商等行业客户的标签。游戏公司可能不愿意用腾讯云,电商公司可能顾虑阿里云,因为有业务竞争。到了 AI 时代,这种中立性被重新放大。阿里有通义千问,腾讯有混元,字节有豆包。对创业型大模型公司来说,选择一家相对中立的第三方云厂商,更容易获得资源支持,也能减少潜在竞争顾虑。季昕华提到,优刻得在 Token 层面也可以保持中立,接入多个 Token 来源,为客户选最合适的。

从客户结构看,优刻得面临的算力需求主要来自几类:第一类是基础模型公司,比如智谱、MiniMax、DeepSeek 等,需要大量卡做训练和推理;第二类是行业模型公司,比如金融、证券等有自己数据的公司,需要在基础模型上训练行业模型;第三类是手机、汽车等智能终端;第四类是各种应用场景;第五类是科学计算。

这些客户未必都有能力自建大规模数据中心,也未必都能从巨头那里获得足够细致的资源和技术支持。优刻得的差异化在于,不只是提供机柜,也不只是卖云主机,而是试图提供从数据中心、高功率机柜、GPU 算力、模型部署、Token 计费到企业 AI 使用治理的一整套能力。

这条路并不轻松。AI 基础设施本质上是重资产。数据中心建设要土地、楼宇、机电、UPS、柴发、制冷、液冷和高功率机柜;GPU 和 AI 服务器价格仍在波动;客户希望成本下降,但上游设备并不便宜。现场交流提到,硬件价格上涨很快,但终端客户拿到的算力租赁价格并没有同步上涨,中间压力需要云厂商和算力服务商消化。

同时,数据中心标准也需要调整。季昕华提到,现有数据中心标准已经落后于 AI 行业发展。现在很多高等级标准要求双路供电、两路 UPS、两路柴发等冗余设计,但并不是所有 AI 产品都需要这么高标准。未来不同业务可能需要更精细化的数据中心标准,而不是所有负载都按最高标准建设。这也意味着,AI 基础设施的降本不只是“压价格”,还包括重新定义什么业务需要什么等级的基础设施。

比如训练任务对稳定性要求极高,但部分推理任务可能对冗余要求没那么高;金融和汽车等敏感业务适合放在青浦等靠近客户的区域,普通推理和训练任务则可以放在乌兰察布这种电力成本更优的区域。任务分层、资源分层、模型分层,都会成为未来 Token 降本的一部分。

所以,Token 价格战背后的真实战场,已经从模型 API 页面,转移到了电力、数据中心和算力系统深处。当企业真正开始把 AI 放进代码、营销、财务、HR、会议纪要、智能硬件和行业模型,Token 就不再是技术圈里的抽象单位,而会变成企业账本上的真实支出。而谁能把一度电更高比例地转成有效算力,把一张 GPU 跑出更多有效 Token,把不同模型组合成更低成本的工作流,把员工的 AI 使用变成可衡量的业务产出,谁才有机会在下一轮 AI 基础设施竞争中留下来。

Token 便宜的尽头,不只是模型降价。是电力,是算力,是工程能力,也是企业重新学会怎么用 AI。