视频模型巨大的“隐形成本”，没人告诉你

来源：互联网时间：2026-06-07 13:33:09

先分享一组我从播客里听到的数字。

xAI 的 Colossus 超算集群，花了超过 10 亿美元；OpenAI 每个月的算力账单，据说直奔数亿美元；Anthropic 融到的钱，在公众眼里几乎已经和「GPU 使用时长」画上了等号。

没有人谈论别的。GPU 几乎成了衡量一家 AI 公司实力的「通用货币」，也是每篇融资报道里最扎眼的那个数字。

但在最近一期 Latent Space 播客里，xAI 前研究员 Ethan He 的话直接刷新了我的认知。他 2025 年年中加入 xAI 时，面对的是从零开始的状态——没有基础设施，没有数据，没有现成模型。他和一支小团队，只用了三个月，就搭建出了当时业内一流的 Grok Imagine 视频生成系统。聊到大规模视频模型的训练成本时，他说了一组数字，让人突然意识到，整个行业可能一直在算错账。

「光是存储这些视频和特征数据，每个月就要几百万美元——这还没算算力成本。」

01 账单上的隐藏成本

从零开始训练一个视频大模型，到底要花多少钱？先假设你的团队资金雄厚，GPU 算力随便用。即便如此，你可能还是低估了背后那笔巨款。

假设你要训练一个世界级的视频生成模型，从网上爬取 10 亿条视频，每条平均 5MB——这已经是非常保守的估算。光这一项，就需要 5PB 的存储空间。按 AWS S3 的标准定价，5PB 存储，每个月大约 10 万美元。

但这还只是原始视频。

训练视频模型之前，行业通行的做法是先用 VAE 把视频压缩成「潜在空间」的特征向量。一段视频展开成像素，可能有几十亿个 token，任何 Transformer 都处理不了，必须先压缩成模型能理解的连续向量。问题在于：这份压缩后的特征数据，体积和原始视频相当，同样需要长期存储，随时备用。两项叠加，数十 PB，每月存储费就超过 20 万美元。

然后才是最让人吃惊的那一项：数据进出费。

Ethan 说，从互联网下载 10 亿条视频的带宽费用，在 AWS 上甚至比存储这些视频还贵。每次训练，数据都得从存储层拉到计算层跑一遍。视频模型的训练不像语言模型那样训完就结束了——要迭代，要调参，要测试不同的数据配比，每一次实验都意味着把全量数据再过一遍。实验跑得越多，这笔钱就翻倍增长。

视频模型巨大的“隐形成本”，没人告诉你

综合算下来，Ethan 的估算是，光是数据这一块，每个月就要几百万美元。GPU 的费用，还没开始计入。这笔账，我从来没见哪篇 AI 行业报道细算过。

02 扛不住的带宽费

那么，像 xAI 这样自建 Colossus 数据中心的公司，是不是在存储和带宽上省了一大笔钱？Ethan 的回答很直接：「当然，省了很多。」

这句话背后，藏着视频 AI 行业一个不太被讨论的结构性秘密。

大语言模型的训练数据是文本，体积相对轻量，而且训练完成后，原始数据基本就不再需要反复调用——你不需要反复拉取全量语料来做推理或微调。但视频数据完全不同：体积是文本的几数量级，而且每一次训练实验都必须把全量数据完整过一遍。迭代速度越快，数据搬运的成本就越高。而 Ethan 反复强调，迭代速度恰恰是视频模型研发中最关键的变量。

这就形成了一个相互咬合的困局：你需要快速迭代来提升模型质量，但快速迭代意味着频繁搬运数据，而频繁搬运数据在公有云上的账单会把你压垮。

Ethan 本人的轨迹就是一个注脚。他在 NVIDIA 参与构建了 Cosmos 世界模型，做着做着就意识到，视频模型也存在类似语言模型的「规模定律」，提升空间很大。当时他面临的选择，表面看是「我需要更多 GPU」，但同样关键的一句话他没明说——他需要一个不用看 AWS 账单就能随意存放和搬运数据的地方。这也是他去 xAI 的根本原因之一，而 Colossus 给了他那个环境。

对于没有自建基础设施的团队，这笔账就是一道硬伤：每个月几百万美元的数据成本，叠加在 GPU 算力之上，意味着哪怕你有一流的算法团队，哪怕你融到了足够的钱，只要你还在用公有云，你就是在用一个无底洞的账单跟对手的自建机房赛跑。这道门槛，不是单靠「技术取胜」就能跨过去的。

03 视频模型的护城河不是模型

这让人联想到一个有趣的对比。

在大语言模型领域，「开源 vs 闭源」的竞争打得相当激烈。Llama 系列的出现让很多小团队也能在语言模型上打出有竞争力的产品，甚至逼着 OpenAI 和 Anthropic 不断压低 API 价格。但在视频生成领域，格局截然不同：能持续做出顶尖视频模型的，基本只有 Sora、Veo、可灵这些背靠巨量资源的团队，没有一家是靠开源社区在车库里跑出来的。

很多人把这归结于「数据和算力的差距」。这当然没错，但 Ethan 揭示的这组数字说明了更深层的问题：视频 AI 的基础设施成本，从一开始就把竞争门槛锁死在了极少数玩家的高度上。

这和半导体行业的逻辑有几分相似。台积电之所以难以撼动，不只因为它们有更好的设计，更因为一座新晶圆厂需要几百亿美元的前期投入——这道门槛本身就是最好的护城河。视频 AI 的护城河，就是那数十 PB 的数据基础设施和每月滚动产生的带宽账单。

Ethan 在播客里还补充了一个更深的推论：视频模型的「智能」大部分其实来自背后的语言模型，而不是视频扩散模型本身。视频扩散模型相对「愚钝」，只会照单全收地按文字描述生成画面——描述写「一只猫」，它就生成一只猫，站在纯白背景前，纹丝不动，因为你没告诉它背景是什么、猫在做什么。真正理解用户意图、把「一只猫」扩写成一段精细镜头语言的，是背后那个做「提示词重写」的大型语言模型。Ethan 说，在 Cosmos 时期，他曾经用「快乐的羊」做测试：不经过提示词重写，生成的画面极其 CGI、毫无质感；加上重写之后，效果判若云泥——而整个视频扩散模型本身没有发生任何改变。

这意味着，决定一家公司在视频 AI 领域能走多远的，不只是视频模型的参数规模，而是能否同时撑起语言模型和视频模型两套基础设施，并让它们有效协同。这是一场拼综合体力的竞赛。

04 下一个战场，早就被划好了

当然，行业也在摸索出路。提示词重写的 Agent 化、让语言模型像「指挥官」一样调度多个视频生成工具、用 FFmpeg 这类传统软件处理中间环节——这些方向的共同逻辑是，把「语言模型的推理成本」和「视频扩散模型的生成成本」分层计算，让每次视频生成的调用更精准，减少无效的计算和数据搬运。

Ethan 对「视频 Agent」的走向相当笃定。他预测，今年年底将出现一个拐点——当 Agent 生成的视频质量能够稳定达到「可投放商业广告」的水准，企业才会真正愿意为之买单，整体的成本结构也会随之演变。

但有一点不会变：谁掌握了数据的存储和流转，谁就掌握了这场游戏的起点。在 AI 这个赛道上，「真正的壁垒」每隔一段时间就会轮换一次。先是参数量，然后是训练数据规模，再是对齐技术，再到推理效率。现在，视频 AI 正在揭示下一道壁垒——不是某种神秘的算法突破，而是一份冷冰冰的基础设施账单。这笔账，从一开始就没打算让所有人都算得起。

视频模型巨大的“隐形成本”，没人告诉你

01 账单上的隐藏成本

02 扛不住的带宽费

03 视频模型的护城河不是模型

04 下一个战场，早就被划好了

相关阅读

相关下载