首页 > 教程攻略 > ai资讯 >视频模型巨大的“隐形成本”,没人告诉你

视频模型巨大的“隐形成本”,没人告诉你

来源:互联网 时间:2026-06-07 13:33:09

先分享一组我从播客里听到的数字。

xAI 的 Colossus 超算集群,花了超过 10 亿美元;OpenAI 每个月的算力账单,据说直奔数亿美元;Anthropic 融到的钱,在公众眼里几乎已经和「GPU 使用时长」画上了等号。

没有人谈论别的。GPU 几乎成了衡量一家 AI 公司实力的「通用货币」,也是每篇融资报道里最扎眼的那个数字。

但在最近一期 Latent Space 播客里,xAI 前研究员 Ethan He 的话直接刷新了我的认知。他 2025 年年中加入 xAI 时,面对的是从零开始的状态——没有基础设施,没有数据,没有现成模型。他和一支小团队,只用了三个月,就搭建出了当时业内一流的 Grok Imagine 视频生成系统。聊到大规模视频模型的训练成本时,他说了一组数字,让人突然意识到,整个行业可能一直在算错账。

「光是存储这些视频和特征数据,每个月就要几百万美元——这还没算算力成本。」

01 账单上的隐藏成本

从零开始训练一个视频大模型,到底要花多少钱?先假设你的团队资金雄厚,GPU 算力随便用。即便如此,你可能还是低估了背后那笔巨款。

假设你要训练一个世界级的视频生成模型,从网上爬取 10 亿条视频,每条平均 5MB——这已经是非常保守的估算。光这一项,就需要 5PB 的存储空间。按 AWS S3 的标准定价,5PB 存储,每个月大约 10 万美元。

但这还只是原始视频。

训练视频模型之前,行业通行的做法是先用 VAE 把视频压缩成「潜在空间」的特征向量。一段视频展开成像素,可能有几十亿个 token,任何 Transformer 都处理不了,必须先压缩成模型能理解的连续向量。问题在于:这份压缩后的特征数据,体积和原始视频相当,同样需要长期存储,随时备用。两项叠加,数十 PB,每月存储费就超过 20 万美元。

然后才是最让人吃惊的那一项:数据进出费。

Ethan 说,从互联网下载 10 亿条视频的带宽费用,在 AWS 上甚至比存储这些视频还贵。每次训练,数据都得从存储层拉到计算层跑一遍。视频模型的训练不像语言模型那样训完就结束了——要迭代,要调参,要测试不同的数据配比,每一次实验都意味着把全量数据再过一遍。实验跑得越多,这笔钱就翻倍增长。

视频模型巨大的“隐形成本”,没人告诉你

综合算下来,Ethan 的估算是,光是数据这一块,每个月就要几百万美元。GPU 的费用,还没开始计入。这笔账,我从来没见哪篇 AI 行业报道细算过。

02 扛不住的带宽费

那么,像 xAI 这样自建 Colossus 数据中心的公司,是不是在存储和带宽上省了一大笔钱?Ethan 的回答很直接:「当然,省了很多。」

这句话背后,藏着视频 AI 行业一个不太被讨论的结构性秘密。

大语言模型的训练数据是文本,体积相对轻量,而且训练完成后,原始数据基本就不再需要反复调用——你不需要反复拉取全量语料来做推理或微调。但视频数据完全不同:体积是文本的几数量级,而且每一次训练实验都必须把全量数据完整过一遍。迭代速度越快,数据搬运的成本就越高。而 Ethan 反复强调,迭代速度恰恰是视频模型研发中最关键的变量。

这就形成了一个相互咬合的困局:你需要快速迭代来提升模型质量,但快速迭代意味着频繁搬运数据,而频繁搬运数据在公有云上的账单会把你压垮。

Ethan 本人的轨迹就是一个注脚。他在 NVIDIA 参与构建了 Cosmos 世界模型,做着做着就意识到,视频模型也存在类似语言模型的「规模定律」,提升空间很大。当时他面临的选择,表面看是「我需要更多 GPU」,但同样关键的一句话他没明说——他需要一个不用看 AWS 账单就能随意存放和搬运数据的地方。这也是他去 xAI 的根本原因之一,而 Colossus 给了他那个环境。

对于没有自建基础设施的团队,这笔账就是一道硬伤:每个月几百万美元的数据成本,叠加在 GPU 算力之上,意味着哪怕你有一流的算法团队,哪怕你融到了足够的钱,只要你还在用公有云,你就是在用一个无底洞的账单跟对手的自建机房赛跑。这道门槛,不是单靠「技术取胜」就能跨过去的。

03 视频模型的护城河不是模型

这让人联想到一个有趣的对比。

在大语言模型领域,「开源 vs 闭源」的竞争打得相当激烈。Llama 系列的出现让很多小团队也能在语言模型上打出有竞争力的产品,甚至逼着 OpenAI 和 Anthropic 不断压低 API 价格。但在视频生成领域,格局截然不同:能持续做出顶尖视频模型的,基本只有 Sora、Veo、可灵这些背靠巨量资源的团队,没有一家是靠开源社区在车库里跑出来的。

很多人把这归结于「数据和算力的差距」。这当然没错,但 Ethan 揭示的这组数字说明了更深层的问题:视频 AI 的基础设施成本,从一开始就把竞争门槛锁死在了极少数玩家的高度上。

这和半导体行业的逻辑有几分相似。台积电之所以难以撼动,不只因为它们有更好的设计,更因为一座新晶圆厂需要几百亿美元的前期投入——这道门槛本身就是最好的护城河。视频 AI 的护城河,就是那数十 PB 的数据基础设施和每月滚动产生的带宽账单。

Ethan 在播客里还补充了一个更深的推论:视频模型的「智能」大部分其实来自背后的语言模型,而不是视频扩散模型本身。视频扩散模型相对「愚钝」,只会照单全收地按文字描述生成画面——描述写「一只猫」,它就生成一只猫,站在纯白背景前,纹丝不动,因为你没告诉它背景是什么、猫在做什么。真正理解用户意图、把「一只猫」扩写成一段精细镜头语言的,是背后那个做「提示词重写」的大型语言模型。Ethan 说,在 Cosmos 时期,他曾经用「快乐的羊」做测试:不经过提示词重写,生成的画面极其 CGI、毫无质感;加上重写之后,效果判若云泥——而整个视频扩散模型本身没有发生任何改变。

这意味着,决定一家公司在视频 AI 领域能走多远的,不只是视频模型的参数规模,而是能否同时撑起语言模型和视频模型两套基础设施,并让它们有效协同。这是一场拼综合体力的竞赛。

04 下一个战场,早就被划好了

当然,行业也在摸索出路。提示词重写的 Agent 化、让语言模型像「指挥官」一样调度多个视频生成工具、用 FFmpeg 这类传统软件处理中间环节——这些方向的共同逻辑是,把「语言模型的推理成本」和「视频扩散模型的生成成本」分层计算,让每次视频生成的调用更精准,减少无效的计算和数据搬运。

Ethan 对「视频 Agent」的走向相当笃定。他预测,今年年底将出现一个拐点——当 Agent 生成的视频质量能够稳定达到「可投放商业广告」的水准,企业才会真正愿意为之买单,整体的成本结构也会随之演变。

但有一点不会变:谁掌握了数据的存储和流转,谁就掌握了这场游戏的起点。在 AI 这个赛道上,「真正的壁垒」每隔一段时间就会轮换一次。先是参数量,然后是训练数据规模,再是对齐技术,再到推理效率。现在,视频 AI 正在揭示下一道壁垒——不是某种神秘的算法突破,而是一份冷冰冰的基础设施账单。这笔账,从一开始就没打算让所有人都算得起。