都在说缺算力,90% 的 AI 芯片却被「浪费」了?
正沉浸在Vibe Coding的创作快感中,或者项目跑得正欢,突然CLI工具跳出一行字:「你的额度已用完」——说实话,放到谁身上都得崩一下。

别问,一问AI公司就是「缺算力」。
但真相真的这么简单吗?
根据Epoch AI的估算,到2025年底,OpenAI手头的等效算力大约相当于170万块H100。回想一下,2023年这个数字还只是10万块,2024年是40万块——两年猛涨了17倍。英伟达市值冲破3万亿美元,全球科技巨头每个季度砸下数百亿美元抢购芯片。种种迹象都指向同一个叙事:算力就是AI时代的石油,谁囤得多,谁就赢。
可问题是,每家AI公司都在疯狂囤卡,怎么偏偏就差我那点额度?
在播客Latent Space的一期节目里,AI基础设施公司AMP的创始人Anjney Midha扔出一个重磅冲击波:「
像xAI这样的前沿实验室,GPU利用率可能连10%都不到——这还只是冰山一角。
简单做个换算。MFU(模型浮点运算利用率)是用来衡量GPU算力真正投入模型计算的指标。假设你花5亿美元买了一个GPU集群,MFU只有10%,意味着你实际到手的有效算力,只相当于花了5000万。剩下4.5亿买的算力,全在空转。
这就说不过去了。这些可是全世界最聪明的工程团队,掌控着最昂贵的预算,建造着最先进的计算集群——然后眼睁睁看着90%的算力闲置。
这不是某家小公司的管理失误,这是一个结构性的行业秘密。
巨量采购,巨量浪费
巨量采购,巨量浪费
把这个反差拆得更具体一点。
Epoch AI的分析师Josh You在一份广为引用的报告中写道:「前沿实验室尚未启动大部分AI算力。」他追踪了主要实验室的算力增长曲线,发现一个令人不安的模式——
算力的采购速度远远跑在了消耗速度的前面
这不是前沿实验室的专利。
Fujitsu在2024年发布的《AI基础设施状态报告》里,给出了更刺眼的数据:超过75%的企业在峰值负载下,GPU利用率仍低于70%。注意,这可是「峰值」——换句话说,在最忙的时候,四分之三的企业连七成算力都用不满。
VentureBeat基于类似数据做出了更激进的判断:「
95%的AI基础设施开支被浪费了。
把这些数字换算成真金白银,更能说明问题。一块H100的云实例每小时收费30到50美元。假设一家企业运行着一个20块GPU的小型集群,利用率只有20%——这在业内已经算不错了——那么每年因闲置而浪费的计算成本约为20万美元。而对于拥有数万块GPU的前沿实验室来说,这个数字要放大好几个数量级。
这让人想起一段被遗忘的历史。
1990年代末,美国电信行业经历了一场疯狂的光纤铺设浪潮。WorldCom、Global Crossing、Level 3等公司在地下埋了数百万英里的光纤电缆,投入超过千亿美元。到了2001年泡沫破裂时,行业才发现一个惊人的事实:铺设的光纤中,
超过95%是所谓的「暗光纤」——从未被点亮,从未承载过任何数据
这和今天AI行业买了GPU却让它们空转,是不是同一个故事的不同版本?
不过有一个关键区别。暗光纤的问题主要出在需求侧——当时根本没有那么多数据需要传输。而GPU闲置的问题更复杂,因为算力需求明明就摆在那儿。每家实验室都在抱怨算力不够用,每个研究者都在排队等GPU。
供给和需求同时存在,中间到底卡在了哪里?
GPU 65%的时间在等待
GPU 65%的时间在等待
有人可能天真地以为,GPU利用率低是因为工作负载不够。去翻一翻基础设施层面的技术分析,才发现问题远没那么简单。
GPU不是一头只要喂食就会干活的野兽。它更像一位挑剔的米其林大厨——食材的品质、上菜的节奏、厨房的动线,任何一个环节掉链子,它都得停下来等着。
aixenergy的一项研究揭示了一个令人吃惊的数字:
在AI训练过程中,GPU有30%到65%的时间处于闲置状态。并不是没任务分配给它,而是数据还没准备好。
这就是所谓的「
数据饥饿
训练一个大模型需要海量数据,这些数据要经过清洗、标注、分词、打包等一系列预处理步骤,然后从存储系统加载到GPU的显存中。GPU的计算速度是以每秒万亿次浮点运算(TFLOPS)来衡量的,但存储系统的IO速度根本跟不上这个节奏。结果就像一条高速公路上,收费站的吞吐量决定了实际车流量——不管你修了多少车道,收费站一次只能过两辆车,后面全在堵。
但故事还没讲完。arXiv上有一篇关于GPU能耗的论文,揭示了一个更隐蔽的问题:
即使GPU进入了所谓的「深层空闲状态」,它仍然在大量耗电。
这就像一辆法拉利堵在早高峰的环路上:引擎空转,油在烧,车却没动。而你还要为这辆车支付每小时50美元的租金。
还有一个更微妙的陷阱。那篇arXiv论文指出,目前行业通用的监控指标「集群级SM利用率」,其实并不能有效反映真实能效。SM(流式多处理器)是GPU内部的计算单元。即便监控面板显示SM利用率看起来正常,
实际上很多计算周期在做「假工作」——数据搬运、内存同步、等待通信,而非真正的模型计算。
这解释了一个让人困惑的现象:为什么有些团队报告「GPU利用率70%」,但训练速度却远低于预期。因为那70%里面,可能只有一半在做有效计算,剩下的都在搞后勤。峰值负载利用率就像公司的「最佳季度营收」——它是真的,但它代表不了常态。拿它来衡量效率,就像用你跑得最快的那一次百米成绩,来评估你的日常通勤速度。
当问题出在结构而非规模上时,堆量不仅解决不了问题,反而会让浪费等比放大。
当「用好算力」变成一门新学科
当「用好算力」变成一门新学科
如果问题是结构性的,解法也必须是结构性的。这就是Anjney Midha在那期播客中提出的核心命题。他用了这个词:
「outputmaxxing」——产出最大化。
这个词乍一听像硅谷的又一个流行语,但Midha给出的基准线让人意识到,它指向的是一个严肃的工程问题。他说:「目前最佳实践者的MFU,大概在60%到70%之间。」
60%到70%。这是全世界最顶尖的团队、最优化的代码、最精心调校的基础设施所能达到的上限。而行业均值连这个数字的零头都不到。
这个差距意味着什么?意味着对于大多数AI公司来说,
如果能把利用率从10%提升到60%,相当于没多花一分钱,就把有效算力扩大了6倍。
这和云计算行业走过的一条路几乎一模一样。2000年代初期,企业的物理服务器平均利用率只有10%到15%。每台服务器运行一个应用,剩余的算力全闲置。然后VMware带来了虚拟化技术,把多个虚拟机塞进同一台物理服务器里。再后来Docker带来了容器化,进一步压缩了资源开销。
到今天,云服务器的利用率普遍达到60%到70%。
从10%到60%。这个跃迁花了大约15年,催生了一个万亿美元的云计算产业,彻底改变了软件的构建和部署方式。AI算力现在站的位置,看起来就是2005年的服务器市场——知道问题在哪里,但系统性的解决方案还在酝酿中。
商业模式的变迁正在加速这个转型。早期的AI基础设施市场流行「固定费用许可」和「捆绑Token」模式——企业预付一大笔钱,买下一定量的算力配额,用不完也不退。
这种模式天然鼓励浪费,因为边际成本为零,没人有动力去优化利用率。
VentureBeat的分析指出,随着行业逐渐转向按使用量计费,闲置基础设施的成本压力正在从「被忽略的背景噪音」变成「生产阶段的紧急事项」。
当每一个空转的GPU周期都直接对应着账单上的一个数字时,「产出最大化」就不再是技术理想,而是一个财务命令。
与此同时,环境成本也在倒逼效率革命。
Towards Data Science的分析指出,多数GPU的闲置意味着全球AI计算的碳排放中,有相当一部分是「无效排放」——它们没有产出任何智能,只是把电变成了热。GPU数据中心40%的功耗来自GPU本身,而其中大量消耗在空转和深层空闲状态上。这不仅仅是钱的问题,更是资源和环境的问题。
Fujitsu在2024年发布了一份技术白皮书,标题直截了当:「最大化GPU利用率」。DevZero、Prodia、Mirantis等一批基础设施公司也纷纷发文探讨「为何80%的GPU闲置」以及各自的优化策略。这种行业范围内的集体焦虑本身就是一个信号——问题已经大到没人能继续假装看不见了。
有一件事被忽略了。在AI竞赛的叙事中,「规模」一直是唯一的主角。
谁拥有最多的GPU、谁训练了最大的模型、谁花了最多的钱——这些是头条新闻的素材。但效率从来不是头条。
Midha的「产出最大化」之所以值得认真对待,是因为它暗示了一个范式转移:
AI竞赛的护城河正在从「谁能买到更多算力」转向「谁能从同样的算力中榨取更多智能」。
这不是一个渐进式的优化问题,而是一门新学科的诞生。
每一次基础设施革命似乎都遵循相同的剧本:先是疯狂建设,然后发现大部分产能在浪费,接着一批新的公司和技术出现,专门解决「如何用好已经建好的东西」。铁路时代如此,电力时代如此,互联网时代如此,云计算时代如此。AI算力正好走到了这条弧线的拐点上。
但这一次有一个值得玩味的区别。之前每一次效率革命,优化的对象都是相对「笨」的资源——蒸汽、电力、带宽、服务器周期。而这一次,我们试图优化的资源本身,正被用来创造某种形式的智能。当你把一块GPU从空转状态「唤醒」,让它真正参与模型训练时,你增加的不仅仅是利用率百分比——你增加的是这个世界上正在思考的硅基大脑的数量。
也许,AI时代最重要的问题从来不是「我们能制造多少算力」,而是「我们已经拥有的算力中,有多少真正在思考」。
-
- 网名带郑和霍字的网名女有哪些
- 角色扮演 | 1
- 网名