首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >世界模型第一次有了「存档」！VAST发布Project Eden

世界模型第一次有了「存档」！VAST发布Project Eden

来源：互联网时间：2026-06-01 19:10:58

过去一年，“世界模型”这个词，在AI圈可以说是热度顶流。

越来越多的机构站出来，宣称自家的模型能模拟世界了。用户输入一句话，模型就能生成一段连贯的视频；给定一个动作或镜头指令，画面里的人物、场景、物体，立刻就能跟着动起来。乍一看，AI似乎真的在创造世界了。

但这里有一个根本性的问题需要厘清：生成一段看起来流畅的视频，就真的等于构建了一个世界吗？

坦白说，如今很多所谓的“世界模型”，本质上更接近一个高级的视频预测器。它们擅长根据历史画面推测下一帧，根据输入的动作生成一小段视觉结果。但关键症结在于——世界状态本身并没有被独立维护。模型看到的是一串像素，而不是一个可以长期存在、能被多人同时进入、并能被动作持续改变的稳定系统。

这带来了一系列根本性的局限：当一个物体离开镜头视野，它在模型内部还存在吗？用户转身离开后再回来，场景还能保持一致吗？当多个玩家从不同视角进入同一个空间，他们看到的，真的是同一个世界吗？

如果这些问题都无法解决，那么这些所谓的“世界模型”，充其量只是“像世界的视频”，而不是一个真正的世界。

正是在这一判断之上，

全球领先的通用人工智能公司VAST

，给出了一条在底层架构上完全不同于主流的技术路线。

不同于常见的动作条件视频生成，也不同于静态的3D场景生成，

Project Eden

选择了一条更底层的路径：

将世界的状态推演与视觉呈现进行原生解耦

。它不再让模型在像素层面去做下一帧的预测，而是先维护一个可持续演化的底层世界状态，然后根据用户的视角、动作和交互需求，把这个世界实时渲染成具体的画面。

这一突破，使它成为全球首个允许对世界状态进行自主维护与确定性控制的世界模型。随之而来的，是环境长程持久、场景自由复用、多人并发交互这些极具碘伏性的能力。

我们先看几个演示，感受一下。

下面这个视频，不仅完美地理解了“暴雨、巨浪与直升机交互”这类复杂的物理规律，用户还能通过屏幕上的虚拟按键，实时、连续且稳定地预测并生成下一帧的3D时空状态。

而在另一个演示中，生成的画面完美融合了人物动画、刚体（木船）以及流体（水面）之间的交互，展现了Project Eden在构建高沉浸感、可交互虚拟世界方面的巨大潜力。

Project Eden 生成的多角色协同场景

环境长程持久化，是其中最为直观、也最具碘伏性的一项能力。

在Project Eden中，物体一旦离开相机视野，并不意味着它从世界中消失了。它依然存在于底层状态里，并且继续按照世界的逻辑运转。当用户转身离开，之后再转回来，系统查询的是同一个底层世界状态。举个例子，玩家转身离开，再回来，那棵树依然在原地。这绝不是根据历史视频帧重新生成的一个相似画面。

这意味着，世界拥有了真正意义上的长程记忆。用户不再只是观看一段一次性的生成视频，而是进入了一个会持续存在的环境。

场景自由复用与确定性控制，是第二项核心能力。

传统视频生成是一条一次性的时间线：生成过后，历史就固定了，无法回退，也无法分支出不同的结果。但在新的解耦架构下，底层状态是可以被读写和干预的。用户在场景中进行的任何破坏、建造或是改变，都会被真实地写入底层状态。后续进入同一场景的其他用户，会看到完全一致的世界状态。这不再是每次生成一段新视频，而是所有人共享同一个持续演化的世界。

举个例子，一个用户在场景中破坏了一个物体、移动了一栋建筑，或者改变了某片区域的状态，这些变化会被真实地保留在这个世界里。其他用户再进来，也能看到完全一致的结果。

这也让生成内容，从一次性的视频，变成了可复用、可编辑、可持续运营的互动空间。

第三项，是原生多人和多智能体的并发交互。

对于传统的视频世界模型来说，处理多玩家是一个非常棘手的问题。因为每个玩家都有自己的视角、动作和画面历史。如果每一路都依赖单独的“视频上下文”来生成，那么算力成本和一致性维护很快就会失控。

而在解耦架构中，底层状态只有一份，被所有智能体共享。渲染层只需要根据各自的位置和视角，独立生成画面即可。计算成本从指数级降为了线性级。当N个玩家同时在线时，系统只需维护一个底层状态和N路渲染，而不是N套完全独立的生成系统。这不仅是性能优化，更是大规模商业落地的必要前提。

数据策略：3D生成真正难啃的硬骨头

Project Eden背后的数据构建逻辑，同样值得深究。

VAST提出了一套原创的分层数据策略。其核心是“双态对齐数据”的概念：只有底层推演态（隐式结构与逻辑）与视觉渲染态（高保真视频画面）完美对齐的数据，才是训练世界模型真正需要的原生数据。

基于此，VAST在数据端部署了两层策略：L1为海量互联网视频自标注，L2为引擎合成数据。

在第一层，VAST依托自身长期积累的3D基础模型能力，对海量无标注的互联网2D视频进行反向解构，提取出深度、相机位姿与几何轨迹，将原本的单态视频提炼为双态数据。这种方式充分利用了互联网视频的多样性，赋予了模型对各类真实世界环境的强泛化能力。

在第二层，VAST利用游戏引擎天然具备“双态运行”特征的优势，低成本批量生成带有绝对精准3D状态标注、动作指令以及环境变化的配对数据，确保模型能够学到严密的物理演变与控制逻辑。

这种“互联网数据泛化 + 引擎数据精准化”的组合，在覆盖广度与逻辑精度之间取得了很好的平衡。它既不放弃对真实世界分布的学习，也不依赖单一的合成数据来支撑物理逻辑。

不止内容生成：Project Eden的更大想象空间

Project Eden所指向的，绝不仅仅是一个更强的3D生成工具，而是下一代互动内容的底层基础设施。

在过去，3D内容生产的门槛极高。一个可玩、可交互、可多人进入的世界，通常需要美术、建模、动画、关卡设计、物理引擎、网络同步等一系列复杂流程。生成式AI已经显著降低了3D资产生成的门槛，但单个模型、单个场景、单段动画，都还不是一个真正可运行的世界。

VAST真正想解决的，正是这些内容如何被组织进一个稳定、持续、可交互的世界系统之中。

这也意味着，Project Eden面向的不仅仅是专业的游戏&开发者。它可以服务普通创作者、虚拟内容社区、社交空间、AI原生游戏，以及未来大量由自然语言驱动的互动内容生产需求。

但从更长远的角度看，Project Eden的潜力可能远不止于内容消费。

由于它维护的是一个稳定的底层世界状态，而不是一次性生成的视频画面，这使得它天然适合作为通用人工智能的世界底座。对于智能体来说，关键从来不只是看到逼真的画面，而是环境能否按照一致的规则响应动作、保留变化并持续演化。

因此，Project Eden的价值，不仅是把3D生成推进到了交互内容阶段，更在于它能为世界规则学习、仿真模拟、具身智能、多智能体协同研究，提供一个可持续运行的环境。相比纯视频模型，它显然更接近一个可以被反复进入、持续实验、不断积累交互经验的“世界底座”。

从这个意义上说，VAST要做的，不是再造一个视频生成模型，而是试图搭建下一代互动内容和通用人工智能共同需要的基础设施：一个稳定、有状态、可演化、可被智能体长期训练和探索的生成式世界。

结语

VAST是一家全球领先的通用人工智能公司，其愿景

是让所有人都能自由创作、沉浸式体验可交互的世界

。

在此之前，VAST已经通过Tripo系列3D大模型，在AI 3D生成领域建立了扎实的技术积累。其中，Tripo P1.0能够在2秒内生成专业建模师级别的3D模型，生成速度较市面主流方案提升百倍以上；Tripo H3.1则在模型精度、结构完整性和贴图质量上持续保持行业领先。旗下平台Tripo Studio已聚集超过2000万创作者，累计生成近1亿个3D模型。

Tripo P1.0 生成效果

近期，VAST又在Tripo Studio上线了两项新能力。

其中，Tripo 8K贴图算法进一步提升了3D资产的细节表现，贴图精度已经突破了人眼的分辨极限。即便在近距离特写下，模型表面的纹理、材质和细节也能保持足够真实。

Segmentation V2智能部件拆分，则让3D资产具备了更精细的结构拆解能力。

在3D资产生成上打下基础之后，VAST进一步把能力边界从“生成一个模型”推向“生成一个可运行的世界”。

如果说Tripo让更多人能够低门槛地生成3D内容，那么Project Eden就是让这些内容真正“活”在一个可持续运行的世界里。世界模型的竞争，也因此从“谁更会生成”走向了“谁更能维护一个世界”。

当然，通往真正通用的世界模拟器，道路依然漫长。Project Eden目前更像是确立了一条重要的技术路径：世界模型的未来，不只是让AI更会“画”世界，而是让AI开始学会“维护”一个世界。

当世界模型生成的内容不再只是画面，而成为一个可以持续存在、被反复进入、还能被改变的系统时，AI内容生成、游戏、空间计算、机器人训练和智能体平台之间的边界，也将随之被重新定义。

世界模型第一次有了「存档」！VAST发布Project Eden

全球领先的通用人工智能公司VAST

Project Eden

将世界的状态推演与视觉呈现进行原生解耦

环境长程持久化，是其中最为直观、也最具碘伏性的一项能力。

场景自由复用与确定性控制，是第二项核心能力。

第三项，是原生多人和多智能体的并发交互。

数据策略：3D生成真正难啃的硬骨头

不止内容生成：Project Eden的更大想象空间

结语

是让所有人都能自由创作、沉浸式体验可交互的世界

相关阅读

相关下载