首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >300美元跑通世界模型！比老黄便宜10倍

300美元跑通世界模型！比老黄便宜10倍

来源：互联网时间：2026-06-10 13:27:41

风筝和鸟，都能飞。但风筝的飞翔是借来的——风借线，线借手，手借远处的指令。鸟不一样，翅膀是自己的，俯冲、停栖、转向，全凭大脑一念之间。

过去的具身智能，更像那只风筝。云端给了它“大脑”，却也用延迟和带宽拴住了它。一个倾倒的杯子、一场骤雨，就足以让它崩乱。真实世界等不起信号往返云端的那个来回。

X-Era Lab（拓元智慧）和星宸科技最近做成的一件事，是把风筝变成了鸟。他们把自研的世界动作模型 VWA，装进了一颗指甲盖大小的端侧芯片，完成了“感知—预测—控制”的全链路闭环。这次，他们剪断了那根线。

X-Era Lab 与星宸科技联合推出的首款端侧世界模型解决方案

把「大脑」真正装回身体

一个产品最原始的出发点，决定了它后来所有的形状，也决定了它会在哪里走形。如果一件事同时背着“炫技”“拿融资”“赶风口”太多目的，就会从“为用户解决真问题”，悄悄变成“替团队完成一场表演”。动作开始替老板做、替发布会做，而不再替那只要去抓住倾倒杯子的手做。

X-Era Lab 把发心收敛到了一件事上：做全球第一个原生的世界动作模型。说穿了很朴素，如果不能稳稳托住现实生活里的一只杯子，再酷炫的 PPT 又有什么用。所以它从第一天就认定，推理这件事，必须发生在机器人本体上。

具身智能的上半场，比的是谁的模型更大。下半场要回答的，是另一个更朴素的问题：谁能把“大脑”真正装回身体，让它在真实世界里跑起来，并且足够便宜地跑起来。

世界模型必须走到端侧

把模型放云端、机器人传画面回来等指令，这套链路在大模型时代很顺手，可一进物理世界就处处碰壁。说到底，那根“线”还在。

这个道理几乎人人都懂：自动驾驶不能只靠云端决策。肉眼看见的绿灯，等画面传上云、决策再传回来，可能已经变成了红灯。云端能告诉你“世界长什么样”，却赶不上回答“此刻该怎么办”。

工业场景里，亚毫米级的精密放置，机械臂的容错只有零点几毫米，决策一滞后，物体就被推过了头。家庭场景同样如此，一个几十公斤的机器人，若对人的状态判断慢了半拍，一个抬手就可能伤到人。在物理世界里，迟到的正确，约等于错误。

带宽也是关键约束。大语言模型往云端传的是文本，带宽要求很低；可世界模型要“理解世界”，一旦是多传感器、多模态融合输入，上行带宽会急剧膨胀。在 X-Era Lab 研发总监蒲韬看来，这正决定了两类模型的命运：大语言模型可以留在云端，世界模型必然走向端侧。文字可以打包托运，而世界，太重了，传不动。

依托端侧芯片把世界模型从云端搬到智能体上

成本压力也在倒逼这个方向。现阶段云端方案大多以 Token 使用量作为收费标准，但理解物理空间所需要的 Token 用量远超大语言模型所需，这使得具身智能商业化迟迟无法落地。一台机器人卖二十万，不便宜，可一算账才发现，反而是其整个生命周期中需要消耗的 Token 更有可能是个天文数字。厂商看不到利润空间，客户估不准落地成本。一个算不清账的商业模型，没有人敢真的下场。

X-Era Lab 的 CTO 陈添水觉得，国内硬件几乎都是一次性买断，极少订阅制能成立，原因正在于此。把模型放到端侧，这笔账才变成确定的：芯片装上去，怎么用都是那个成本。

隐私问题也在把世界模型推向端侧。Token 承载的隐私信息相对有限，但“理解世界”要持续处理大量视觉与空间信息，家里长什么样、生产线在做什么，这些远比一段文本敏感。一旦这些数据必须上传云端才能用，许多场景从一开始就不会向你敞开。把世界搬到云上的那一刻，很多扇门就已经关上了。

延迟和带宽，逼着世界模型往端侧走；成本和隐私，决定它走到端侧之后生意能不能做。前者是物理约束，后者是商业约束。两股力气，把答案推向同一个方向。对世界模型来说，走向端侧不是一道选择题，而是一道必答题；而它们共同指向的那个词，是确定性。这正是 X-Era Lab 从第一天就选端侧的理由。

能塞进端侧的，是为端侧而生的模型

在市场上，相比友商 Thor-U 芯片动辄 3000 多美元的方案，他们想让世界模型跑在两三百美元的芯片上。但靠事后裁剪是塞不进去的，这个模型从娘胎里就为端侧而生。

要看清 VWA 的不同，得先看看别人怎么走。当下的“世界模型”，大多走两条路线。一条是 VLA，建立在多模态大模型之上，加一个“动作专家”做改造；一条是以视频生成模型做内核，用 2D 表征渲染出 3D 世界。

VLA 的表征停留在语言模态——你问它面前的水瓶离自己多远，它能答“大概三十厘米”，但实际可能是十厘米，这是无法容忍的误差。视频生成模型停在 2D 像素空间，对真实 3D 刻画不足，做动作前还要先生成视频，成本高，2D 到 3D 的误差层层累积。

一个把世界“说”出来，一个把世界“画”出来——可机器人要的，是把世界“算”出来。X-Era Lab 的世界动作模型（VWA），绕开了这两条路线面临的障碍。

据陈添水介绍，VWA 在底层架构上做了三件事：

把物理与动作向量放进同一个 Token 内联合建模，再加上时序维度，共同构成 4D 数据；
没有沿用现成的多模态大模型骨干，而是专门为几何与动作设计了预训练网络；
让预训练和后训练的目标保持统一。别人是在后训练阶段、针对特定场景“打补丁”，而 VWA 在预训练阶段就把对物理世界的理解灌进了模型。

把三条路线摆在一起，差异其实落在同一个问题上：模型对“世界”的理解，到底停在哪一层？VLA 停在语言层，所以它只能把物体的位置估个大概；视频生成式停在 2D 像素层，做动作前先得生成画面，3D 信息在这一步就漏掉了精度。

原生世界动作模型的 4D 表征

VWA 通过预测未来的 4D 世界来建模真实物理世界，也就是刻画 3D 空间随时间如何变化。在这样统一的时空表征中，场景的深度结构、机器人的动作轨迹，以及交互过程中蕴含的接触、碰撞、形变等物理规律，都可以被放在同一套模型里联合学习。

不同于许多基于视频生成的世界模型，VWA 不把主要算力消耗在纹理、光影、背景等与动作决策弱相关的视觉细节上，而是绕过这些表象，直接建模三维几何和时序运动。当模型学习点云如何位移、物体如何碰撞、形变如何发生时，它学到的不是“世界长什么样”，而是“世界会怎样变化”。

更关键的是，X-Era Lab 并不是把 4D 表征只当作后训练阶段的辅助工具，用来重建空间或合成数据；而是从预训练阶段就把 4D 作为统一底座，让物理理解、空间预测和动作生成落在同一套表征里联合学习。换句话说，别人是在用 4D 补数据，VWA 是从一开始就长在 4D 上。

因此，VWA 能以更小模型完成更复杂任务，并不是靠后期裁剪或蒸馏硬挤出来的，而是因为它从源头减少了无效负担。不需要背一个庞大的多模态大模型骨干，也不需要反复生成冗余视频画面。它把参数和算力集中用在与机器人行动最相关的空间、时间和物理规律上。这也是 VWA 同时具备端侧部署可行性和 Scaling Law 潜力的根本原因。

VWA 的每个物理 token 的预测都基于过往 N 个时刻所构成的 4D 表征

模型怎么“住”进芯片

模型再好，最终都要落到一颗具体的芯片上——能不能“住”得进去，才见真章。

这次的合作方是星宸科技，一家以图像信号处理、AI 处理器、音视频编解码为核心 IP 的上市公司，2025 年上半年机器人视觉 AI SoC 出货量已居全球第二。视觉与 ISP 本就是它的老本行，而这恰恰是“理解世界”最需要的那只眼睛。

X-Era Lab 与星宸的合作一拍即合。在具身领域，软硬协同不是加分项，而是必选项。而星宸恰好是那个愿意“协同”的芯片方。双方对“机器人的脑子要长在机器人身上”判断一致，星宸也在资本和内部资源上给予了支持。

更关键的是，这不是“模型做完了再找芯片”的接力，而是从模型训练的第一天，两边就坐在了一张桌子上。

世界模型表达的是连续的世界空间，与常见的离散压缩不同，普通离散量化会带来较大精度损失。世界模型需要刻画连续变化的物理规律，而将模型压缩至 4 位极端精度，意味着用最离散的表示去逼近最连续的世界，本身就是一项极具挑战的课题。为此团队与星宸科技展开深度合作，从底层工具链、算子实现到内存调度策略进行全栈联合优化，专门为 VWA 架构量身定制，让模型在端侧芯片上既能高效运行，又能精准还原物理世界的连续性与细节。

芯片侧也做了全面配合。星宸 IPU 算力覆盖 0.1 Tops 到上千 Tops 全档位，按算力区间布局而非“一颗万能芯片打天下”；自研 StarShuttle 推理框架已迭代四次，支持多模态算法与 AWQ/GPTQ 量化；面向具身智能提供的是分布式计算架构。它还针对 VWA 的独特算子做了芯片级优化，相比软件级，效率可提升上百乃至上千倍。正是这种咬合，才让一颗成本可控的芯片，跑得起一个完整版的世界模型。

而且，星宸正在布局双目 3D 成像与 Lidar SoC（SS901XX 系列，探测 0.5 至 500 米及以上、精度 ±0.03 米），做的正是 3D 感知。X-Era Lab 反复强调“理解 3D 物理世界”，芯片伙伴恰好在硬件层做 3D 感知。这场合作便不只是“芯片能跑模型”，而是感知与世界理解在物理层的咬合。一个把世界看清，一个把世界想透，远比单纯的算力适配走得更深。

X-Era Lab 表示，星宸是目前性能与成本的最优选。它还提供跨场景、跨芯片、可量产的统一软件底座，并以开放方式向行业释放能力，从 Comake 开发者社区、Comake Pi 开发板，到全栈 AI 工具链和开源模型库，构成“开发者赋能→产品化落地→生态规模放大”的正向飞轮。换句话说，端侧从来不是一次性的单点合作，而是一个能不断接入新伙伴的底座。

星宸描绘过一个“多形态共存的机器人世界”：扫地的、陪伴的、清理泳池的、修剪草坪的、端茶的……不管四足的、还是两脚的。它们形态各异，却被同一句话框定：场景驱动，任务清晰。

原生世界动作模型部署在端侧 AI 芯片的丰富应用场景

回归

伟大的远征，最终都不是为了离开，而是为了有能力，回到最初要去的地方。

机器人最初被改造，是为了变得更聪明，大模型的浪潮将它的“脑”托举上云。世界为它的聪明惊叹，几乎要忘了它原本是为了“做事”而生的。一个只会思考、不能伸手的智能，想得再远，够不到那只正在倾倒的玻璃杯，便什么也改变不了。

X-Era Lab 与星宸今天合力做的，正是这桩关于“回归”的事。他们要把那个一度被放逐到云端的智能，重新唤回到指甲盖大小的身体里，让它的眼、它的算、它的决断，重新长在一处。

人类无数次畅想未来惊天动地的样子。但技术真正成熟的标志，往往是相反的——是它不再被谈论。

扫地机器人不再沿记忆里的路线死转，看见地上一摊水会先绕开，而不是扎进去推得满屋狼藉。割草机器人开过被夜雨泡软的草地，知道这里会陷，便放慢绕行。服务机器人端着热水穿过大堂，预判到那个正低头看手机、即将拐进它路线的人，提前停下。它算的不再是“前方半米有障碍”，而是“那个人下一步会走到哪”。

此刻，在厨房流理台边，一只机械臂去够那只半透明的玻璃杯。而杯子已经在往下滑。它收力、调角、托住。没有惊险的特写，没有该响起的配乐，事情只是平平淡淡地过去了。

今天没有人会赞叹电灯会亮、风扇会转；有朝一日，也不会有人再赞叹一台机器人“居然能自己想”。它只是安静地待在客厅的某个角落，把一件件小事做完，像它本就该在那里。这是 X-Era Lab 和星宸想做的：一切的不可想象，终将化为寻常。

300美元跑通世界模型！比老黄便宜10倍

把「大脑」真正装回身体

世界模型必须走到端侧

能塞进端侧的，是为端侧而生的模型

模型怎么“住”进芯片

回归

相关阅读

相关下载