首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

来源：互联网时间：2026-05-29 11:22:46

文｜王欣逸李嘉星

编辑｜周鑫雨

一家从第一天起就专注多模态大模型的公司，面对具身智能和世界模型的热潮，不可能也不应该袖手旁观。

2026年，随着Seedance 2.0、GPT Image 2.0等模型的爆火，多模态能力已经成了整个行业绕不开的关键词。5月19日，在智象未来首届开放日上，这家公司给出了自己的判断：“原生多模态是实现AGI的必经之路。”

开放日的主题是“Imaging the World”。不过，对智象未来来说，「World」的重要性，几乎要压过「Video」和「Image」了。

“我们的终极目标是打造世界模型。”智象未来CEO梅涛在活动中反复强调这个观点。在他的定义里，智象未来要做一家原生多模态大模型公司——一个真正的世界模型，需要同时满足多个条件：掌握物理规律、解决长时间跨度的因果推理、实现全模态交互，以及绝对的安全性。

当下主流的世界模型训练路线，大致可以分成两派：李飞飞的“生成3D世界”路线，和Yann LeCun的“自监督预测世界”路线。

智象未来则走了一条不同的路——从算法和架构层面创新，从世界模型训练中最稀缺、成本最高的多模态数据入手。他们率先聚焦在视频、图像、3D交互等数据的生成上，用低成本的合成数据来对抗行业的数据稀缺瓶颈，并从中积累一些可在世界模型上复用的视觉模型能力。

具体来说，就是让多模态模型从构建之初就拥有理解真实世界规则的能力。原生全模态Unified Transformer（UiT）架构能做到“Any to Any”（任何形式输入支持任何形式输出），而这正是世界模型所需要的能力：在统一架构中理解、生成并预测现实世界的不同状态。

过去一段时间，他们完成了一次关键的转型：从“模型即产品”转向了“做Agent平台”。

作为一家主要面向To B的公司，他们把自己的打法概括为“1+1+3”MaaS（模型即服务）平台：底层是HiDream系列大模型，中间层是HiHarness企业服务平台，上层则覆盖三大场景——商业营销、影视创作、社媒创作。

概念火热的同时，资本也在持续加码。继上个月拿到安徽省产投、东方富海等机构投资的5亿元B轮融资之后，智象未来又火速完成了新一轮亿元级融资。

但竞争也在升级。模型能力越来越强，在和海内外基模厂商争夺市场的同时，智象未来还要握紧手中的新牌——MaaS平台，并瞄准视频生成领域的垂类赛道，与大公司展开争夺。

开放日结束后，《智能涌现》等媒体与智象未来CEO梅涛，以及其投资人东方富海合伙人王兵聊了聊。以下为对话实录（略经摘编）。

很多具身智能公司低估了视频模型的重要性

问：在大家认知中，智象未来之前做图像和视频比较多。从二维的图像、视频到三维的物理世界，你们的战略转型是怎么发生的？

梅涛：

目前大家把市面上一些模型称为世界模型，其实为时尚早。世界模型有不同的路径，未来也可能有多重可能性。

到今天为止，我们不会对外宣称自己是一家世界模型公司。我们更愿意将智象未来定义为原生多模态大模型公司。原生多模态大模型公司，未来肯定会通往世界模型。

问：现在很多公司都自称在做“世界模型”，但外界对这个概念的定义很模糊。您如何界定智象未来所追求的“世界模型”？

梅涛：

我们非常严谨地认为，智象未来做的是原生多模态模型。在迈向世界模型的过程中，我们会比较聚焦在视频、图像、3D交互这些数据的生成上。

问：智象未来从拼接式多模态升级为原生多模态，技术在哪个节点发生了转变？目前技术是否成熟？

梅涛：

多模态生成领域的技术尚未收敛，这恰恰是创业公司的机会。如果技术完全收敛、大家都统一采用DIT框架，我们也就没有空间了。正因为技术没有快速收敛，我们才能通过算法创新，用较少的资源实现与大厂同等的效果，而不是单纯去拼数据和算力。

问：从全模态大模型到世界模型，还需要达成哪些成熟的技术条件？

梅涛：

第一是掌握物理规律，包括流体力学、固体力学、分子动力学和牛顿定律等，目前行业还难以全面枚举和掌控；第二是解决长上下文的因果关系问题；第三是实现与物理世界的全模态交互——比如机器人怎么拿起杯子、拧开盖子、倒水并判断用户需求，这离我们还有相当长的距离；第四是安全性，机器人如果进入家庭，必须保障百分之百的安全。

我们现阶段更务实的选择是关注原生多模态问题，既能实现商业化落地，也能为未来迈向世界模型做好技术积淀。

问：很多视频生成模型公司都在卷长视频、真实性。在迈向世界模型的过程中，这些指标会发生改变吗？

梅涛：

世界模型强调的是生成世界的能力，包括逻辑关系、视觉效果等。我们对自己的视频模型有三个维度的要求：第一是模型能力，即视觉内容的合理性、质量，与物理规律的符合度，这方面我们必须瞄准天花板来做；第二是视频时长，目前能做到分钟级的生成，技术上甚至可以做到3分钟、5分钟甚至无限长；第三是实时性与交互能力——当模型花1分钟就能生成出1分钟时长的视频，基本就可以实现交互了。我们希望产品能朝这个方向努力，比如通过算法提供低质量的预览，用户确认后再输出高精度的2K或4K视频。

问：在训练世界模型的过程中，数据是比较稀缺的资源。您认为世界模型的数据获取、清洗和标注策略，和之前训练图像、视频模型相比有什么不同？

梅涛：

模型训练包含三个要素：算法、数据和算力。如果算法框架固定下来，剩下的就是在比拼数据和算力了。举个例子，如果大家都在用DiT架构做视频模型，那么数据的质量、分布以及标注的质量，对模型能力就相当重要。

不过，一旦算法和架构发生了变化，或者出现了新的架构和新的算法，数据的重要性就会弱一些。这也是创业公司的机会所在——我们不完全是拼算力和数据，而是关注算法本身的创新。

回到数据层面，为了获取高质量的真实数据和反馈，我们做了一套工具链，用来收集、清洗和标注这些数据。我们拥有20万小时有影视版权的视频数据，和不少厂商保持着合作关系，同时也在寻求与头部拥有版权数据的影视公司合作。

世界模型的数据情况与视频模型有所不同：世界模型的数据采集需要全方位多模态的数据，成本更高，也更稀缺。因此，智象未来正在做的是，将其他厂商采集到的毫米级真人实操数据，用视频模型生成万份级不同场景、肤色的真人数据，并用这些真实数据及机器合成数据来训练VLA和WAM模型。

问：用纯真实数据训练模型，和用机器合成数据训练模型，效果会有所不同吗？

梅涛：

我们会进行小规模的验证，形成从数据到模型训练的闭环。具体来说，就是看用机器生成的数据对市面上普通的乃至最好的VLA和WAM模型有没有好处，反推去验证数据的有效性。

问：您曾提到，很多具身智能公司低估了视频模型的重要性。为什么说没有视频模型，具身智能很难走远？

梅涛：

现在具身智能公司的模型规模普遍很小（不到100B）。如果真要承担类似世界模型的复杂任务，靠小模型和有限的数据采集，几乎不太可能实现广泛的泛化。我们做的是全球唯三、能够达到千亿规模的多模态模型。如果没有一个坚实、厚重的底座模型，做具身智能很难实现良好的泛化，即便在特定场景里因为有数据采集能做一点，也很难扩展到其他场景。

多模态模型Token的毛利率，远高于语言模型

问：今年初，Sora的关停下架对国内视频领域的创业者产生了一定影响。这会影响投资人的投资决策吗？

王兵：

不会。因为这是OpenAI的战略选择。目前在Coding领域，OpenAI被Anthropic压得很厉害。在有限的资源和竞争下，OpenAI可能自然把短期内难以赚钱的图像、视频模型的优先级放低了。

但从去年到今年，整个图像和视频模型行业的商业化进展非常快——比如可灵、Seedance 2.0等，在收入上表现都不错。不过，视频生成赛道真正可能存在的风险是版权问题，这也是我们选择投资智象未来的重要原因：智象的所有数据都是合法、有版权的。

在大模型特别烧钱的背景下，我们特别看重企业如何用最有效的方式和大公司进行差异化竞争。具体来说，一方面，企业要用较低的成本做出能力比肩头部大厂的基模，并提升研发效率和资金效率；另一方面，企业要能利用先进技术，快速落地到不同的商业场景中，差异化地做好B端场景服务。

问：视频模型真的能赚钱吗？

王兵：

它一定会赚钱。第一，算力成本一定会指数级下降。英伟达每年推出的芯片算力都是上一代的5-10倍，但价格几乎没有涨太多，因此算力的平均价格每年都在下降。你今天看到不赚钱的项目，可能过两年就开始赚钱了。

第二，过去几年，图像和视频的生成效果无法达到商业化的水准，但今年，我们可以看见包括AI短剧、短视频、电商视频的质量几乎都能实现商业化。在影视、广告等几乎所有视频领域的应用场景中，AI一定会取代绝大部分的人工。

问：在视频生成行业做To B服务，毛利率能实现为正吗？

梅涛：

To B的毛利率挺高的。同时，多模态模型Token的毛利率也远远高于大语言模型Token的毛利率。

问：衡量视频赛道企业是否到达商业化的节点，有什么标准吗？

王兵：

我们观察了这个赛道很长时间，一直没有下手的原因是，我们还不确定什么时间点品质和成本能够达到商业化水平。从去年开始，我就感觉那个“点”就快到了，同时我们也在等那个最合适商业化的转折点。这个“点”一定会来，而且就目前来看，它到来的时间比我们想象的要快。

具体到对企业的衡量标准：第一个是团队技术背景，团队要是该领域的开拓者且经历了很长时间的积累；第二个是稳定性，团队的人才密度很高，能持续保持稳定；第三个是资金效率、研发效率以及团队长期的专注力。

问：您对视频生成赛道创业公司的商业化路径选择怎么看？

王兵：

在算力成本大幅下降之前，尽量不要在To C上和巨头公司打起来。以智象为代表的创业公司，先做To B肯定是对的——通过做To B，企业能提升产品的逻辑能力、场景落地的能力，在没有烧很多钱的同时还能实现一定的收入。

问：平台与各大模型平台的合作模式与分成机制是什么？分佣比例方便透露吗？在电商、短剧上又存在什么样的合作模式？

梅涛：

行业共识是，没有一家厂商的模型能满足客户所有要求。所以我们打造了MaaS平台，既沉淀自研的多模态能力，也接入Deepseek等第三方大语言模型，满足客户端到端的需求。平台上沉淀了大量API与Skills，用户贡献行业技能，我们会与之分佣。

在电商短视频广告上，我们有三种收费模式：一是按Token售卖工具；二是RaaS素材服务；三是按GMV分佣，比例在15%至30%。短剧方面，我们现阶段主要是给承制方提供AI制作工具，目前不分佣。如果遇到一些精品短剧制作方，比如和安徽电视台、华策的合作，我们会联合承制和发行，这种模式下就会有分佣。

问：您之前提到，AI时代不卷是不行的。今年你们调整了公司战略，要做“1+1+3”MaaS平台。是什么时间点或者市场体感推动您做出这样的决定？

梅涛：

我们是科学家创业背景，习惯脚踏实地做事。但真正对我们触动比较大的，是Minimax、智谱等企业港股上市表现优异。在二级市场上，大家对中国AI公司的估值和信心很强，这让我们意识到需要提升品牌叙事能力。

在一级市场的体感上，2023年大家更看重模型效果，但2024年底至2025年更看重商业化成绩，今年大家开始向海外对标模型能力。今年，一级市场和二级市场的投资人都开始转向模型能力本身，都意识到：模型就是产品，产品就是商业化。

我们一直都是同时做模型和商业化。很难说某一家公司的模型排名始终全球第一。如果没有及早建立商业化壁垒、没有用户心智和行业属性，模型能力上去了，商业化也很难跟上。模型和商业化需要两手抓。

问：从卖通用工具转到开始卖端到端Agent，你们团队内部有没有battle过？

梅涛：

这个争论一直有。最开始我们觉得模型能力就是产品，所以把模型做成了一个简单的C端应用，结果发现并不是这样。除了开发者，普通B端用户不会自己写代码去调用模型，而是要有一个Agent作为中间层。

所以从创业第一天起，我们就坚定要做B端的企业服务。关于商业化的大方向我们没有任何摇摆，To B和To C我们都做，但中间我们摇摆过到底是做SaaS还是做RaaS（内容即服务），包括为什么选择做内容电商而不是传统的货架电商。我们踩过很多坑才发现，做货架电商其中的视频或图片可能很长时间不会更换，你很难证明其中的价值。但内容电商的客户每个月要消耗大几千条短视频，超级客户一年要几十万甚至上千万条，这不可能都用人工来拍，这就是端到端Agent的价值所在。

问：你们想做企业服务的模式是指什么？

梅涛：

首先，我们不做定制化。我们团队规模才两三百人，但已经服务了4万家中型企业客户、4000万个人用户以及100多家头部客户。我们的企业服务主要包括三方面：一是直接做To大B、To小B或者To C模式的服务；二是和平台型企业合作；三是通过自己的平台服务中小型客户。在AI行业，企业服务不同于传统的B端客户，我们提供标准化的产品和服务，这些客户更像是小B或大C，可能是一个团队，也可能是一个人。

行业还没出现能一统天下的模型

问：目前国内外大厂都在布局世界模型和视频模型，智象未来准备如何应对这些愈发激烈的竞争？

梅涛：

这个问题可以拆解为两个方面。第一，智象如何实现和大厂的共存？我们可以把整个行业分成三层：第一层是做C端流量入口的平台，如字节、阿里、Google等有流量分发能力的公司；第二层是做底层基座大模型的公司，如Anthropic、OpenAI，也包括字节、阿里；第三层的公司多如牛毛，包括很多做Agent的公司以及做应用的公司。我们位于第二层和第三层，既做模型，又做应用。

我们不会和大的模型厂商直面竞争底座模型，但我们会做出一些差异化的竞争。比如，我们的图像开源模型能做到全球排名第一，闭源模型也正在冲榜的过程中，目标是全球前三。在视频领域，我们正在做营销、短剧等垂类应用场景的视频模型。

第二，客户为什么和我们合作？我们是一个严肃认真做企业服务的公司，这也是客户选择我们的原因。很多人说我们公司有点像视频版的Anthropic，团队一直比较稳定，企业服务的基因也很强。我们想靠模型能力、产品能力和生态能力，在整个商业化环境中走得更远一些。

问：在和大厂争夺获客的过程中，你们是怎么做的？

梅涛：

大公司平台不太会去做很深的应用和服务，但对于我们这类企业而言，首先要做的是产品、服务，并形成闭环。例如，在商业短视频营销上，我们提供了HiBurst服务加SaaS化的工具。

我们和大厂相比的优势和差异化在于以下几个方面：在图片领域，我们要成为客户的必选项；在视频领域，我们倾向于深耕部分垂类场景——一是无限长视频的生成、长思考和长时长，二是营销场景，做好“人货场”的交互，三是短剧领域，我们的MaaS平台能优化、编排自研和第三方模型。

总体来看，在To B上，我们既做自己的产品，也做整个行业的生态。策略是，在接入自家产品的同时，也接入第三方模型公司的产品，为用户提供一个端到端的产品和服务。

问：您提到做平台是为了补齐短板，但相比于其他打出“降本”口号的平台，你们如何说服用户付费，并选择你们平台上的生态伙伴？

梅涛：

我们跟大厂在平台上竞争意义不大。首先，我们构建了完整的产品能力，能支撑业务快速迭代；其次，我们提供的是差异化的模型能力——比如智象的图片模型在性价比上具备国际竞争力，在视频领域，无论是直播场景、漫剧还是特定内容创作，我们都有大厂覆盖不到的细分优势。目前行业还没出现能一统天下的模型，这给了我们差异化生存的空间。

更关键的是，我们沉淀了大量Skills和行业Knowhow，这也是我们与客户共创的核心。特别是在短视频营销和AI短剧领域，我们通过分析特定区域、国家及类目的爆款逻辑，提供爆款创意裂变方案。这种对爆款规律的把控能力，价值或许远远大于单纯的内容生产。

智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

文｜王欣逸 李嘉星

编辑｜周鑫雨

很多具身智能公司低估了视频模型的重要性

问：在大家认知中，智象未来之前做图像和视频比较多。从二维的图像、视频到三维的物理世界，你们的战略转型是怎么发生的？

梅涛：

问：现在很多公司都自称在做“世界模型”，但外界对这个概念的定义很模糊。您如何界定智象未来所追求的“世界模型”？

梅涛：

问：智象未来从拼接式多模态升级为原生多模态，技术在哪个节点发生了转变？目前技术是否成熟？

梅涛：

问：从全模态大模型到世界模型，还需要达成哪些成熟的技术条件？

梅涛：

问：很多视频生成模型公司都在卷长视频、真实性。在迈向世界模型的过程中，这些指标会发生改变吗？

梅涛：

问：在训练世界模型的过程中，数据是比较稀缺的资源。您认为世界模型的数据获取、清洗和标注策略，和之前训练图像、视频模型相比有什么不同？

梅涛：

问：用纯真实数据训练模型，和用机器合成数据训练模型，效果会有所不同吗？

梅涛：

问：您曾提到，很多具身智能公司低估了视频模型的重要性。为什么说没有视频模型，具身智能很难走远？

梅涛：

多模态模型Token的毛利率，远高于语言模型

问：今年初，Sora的关停下架对国内视频领域的创业者产生了一定影响。这会影响投资人的投资决策吗？

王兵：

问：视频模型真的能赚钱吗？

王兵：

问：在视频生成行业做To B服务，毛利率能实现为正吗？

梅涛：

问：衡量视频赛道企业是否到达商业化的节点，有什么标准吗？

王兵：

问：您对视频生成赛道创业公司的商业化路径选择怎么看？

王兵：

问：平台与各大模型平台的合作模式与分成机制是什么？分佣比例方便透露吗？在电商、短剧上又存在什么样的合作模式？

梅涛：

问：您之前提到，AI时代不卷是不行的。今年你们调整了公司战略，要做“1+1+3”MaaS平台。是什么时间点或者市场体感推动您做出这样的决定？

梅涛：

问：从卖通用工具转到开始卖端到端Agent，你们团队内部有没有battle过？

梅涛：

问：你们想做企业服务的模式是指什么？

梅涛：

行业还没出现能一统天下的模型

问：目前国内外大厂都在布局世界模型和视频模型，智象未来准备如何应对这些愈发激烈的竞争？

梅涛：

问：在和大厂争夺获客的过程中，你们是怎么做的？

梅涛：

问：您提到做平台是为了补齐短板，但相比于其他打出“降本”口号的平台，你们如何说服用户付费，并选择你们平台上的生态伙伴？

梅涛：

相关阅读

相关下载

文｜王欣逸李嘉星