首页 > 教程攻略 > ai资讯 >没有统一名字的战争：国内各家大厂的世界模型版图

没有统一名字的战争：国内各家大厂的世界模型版图

来源：互联网时间：2026-06-26 14:03:31

世界模型这个称呼，在圈内至今没一张统一的签名照。有人叫它世界模型，有人叫世界基座模型，有人叫物理AI，还有人把它藏进自动驾驶大模型、VLA或具身智能系统的架构里，不单独命名。

名字看似乱成一锅粥，但背后大家做的是同一件事。比如：阿里的Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld，分别指向语言世界、虚拟世界与物理世界；腾讯的HY-World更侧重3D可编辑世界；车企则喜欢喊驾驶世界模型或世界行为模型；华&为、百度索性不提“世界模型”四个字。

名字虽然乱，但大家想干的事其实完全一样：

让机器在真正动手之前，先在内部搭一个能推演、能复盘、能无限重来的动态环境。把真实世界压缩成一个数据引擎，降低对现实数据的无尽依赖。

IT桔子前段时间盘点并发布了国内33家做“世界模型”的创业公司报告，业内关注度很高。今天我们再聊聊大公司在这个方向的布局——当创业公司还在为数据采集权和算力预算焦头烂额时，阿里巴巴、腾讯、华&为、蔚来、小鹏、理想已经悄悄把世界模型铺成了一条新赛道。

世界模型的核心野心：让AI真正超越“识别世界”，在脑子里预先演练一遍世界。

自动驾驶厂商想用它生成雨天、雪天、异型障碍物的“考卷”；具身智能团队想让它先让机器人在仿真里摔够十万次再出门；游戏和社交公司则想用它来造一个人类可以沉浸进去的平行宇宙。大厂入局的切口虽然各有侧重，但核心目标一致——把真实世界压缩成可以无限推演、无限复盘的数据引擎。

一、互联网巨头：从数字世界铺到物理世界

阿里的世界模型布局，看起来最像在“把货架上的东西一个个摆出来”。

2026年6月，它在十几天里接连打出三张牌：6月16日的Qwen-Robot系列，6月17日的HappyOyster 1.0，以及6月24日的Qwen-AgentWorld。先聊聊Qwen-AgentWorld，这是一款原生语言世界模型，它不生成图片，而是生成“环境”。具体来说，它能够在MCP工具、搜索、终端、代码工程、Web、操作系统、Android等七个环境中，模拟真实交互、自主学习，并通过强化学习打磨自己。它提供两种规模：总参数量为35B和397B的MoE架构，激活参数分别是3B和17B；训练数据来自超过1000万条真实环境交互轨迹；模型和评测基准AgentWorldBench已经全部开源。换句话说，阿里本意就是把世界模型当做智能体的“训练场”，而非一个“装饰件”。

HappyOyster 1.0则是另一副面貌，它更像一个“可玩的电影片场”——用户给一句话或一张图，它就能生成一个开放式世界，并提供“世界探索”和“实时导演”两种模式让用户任意介入。探索模式支持长达1分钟的连续实时位移与镜头控制，导演模式则可以生成3分钟以上的480p/720p实时画面。阿里将其定位为交互式游戏、虚拟陪伴、互动短剧、文旅体验等诸多行业的入口。

Qwen-RobotWorld又走向了另一个方向。它是阿里具身智能三件套里的“思考大脑”，与VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNa v协同工作，目标是为机器人提供一个可以预演的内心世界。三件事情合在一起，意味着阿里正在同时争夺语言世界、虚拟世界与物理世界的定义权。

腾讯混元走的是另一条路，它的HY-World系列更像是搭建一个“3D游戏的自动工厂”。

2025年7月，腾讯在WAIC上开源了混元3D世界模型1.0，12月升级到1.5，2026年4月又发布并开源了HY-World 2.0。输入可以是文本、单图、多图、视频甚至白模，输出则可以是3DGS、Mesh、点云。2.0版本引入了HY-Pano 2.0、WorldNa v、WorldStereo 2.0、WorldMirror 2.0等模块，把世界生成、世界重建、全景图、实时世界生成串成了一个闭环。说到底，腾讯的优势在于游戏和社交场景——HY-World真正要服务的对象不是训练自动驾驶，而是做游戏关卡、做虚拟拍摄、做数字孪生。

字节跳动的世界模型项目，更像一次带着短视频数据基因的“秘密行军”。

2025年8月，The Information披露，字节Seed团队正在研发世界模型，带队的是周畅（前通义千问核心成员）。这个项目最大的底气，是抖音和TikTok每天超过10亿次的视频流，以及EX-4D框架——能把单目视频转成4D多视角场景。它对标的是谷歌Genie 3和Meta V-JEPA 2，目标不是做一个漂亮的视频生成器，而是构建一个能够模拟物理规律的“数字孪生”。2026年6月23日的火山引擎FORCE原动力大会上，字节没有直接发布这个世界模型，但亮出了豆包Seed 2.1系列、Seedance 2.5视频生成模型、Seedream 5.0 Pro生图模型以及新的音频生成模型。根据媒体独家报道，字节2026年AI战略可以概括为四个命题：世界模型年底要达到全球SOTA、Seedance探索动态生成、Coding巩固基础、豆包加速商业化。从这个布局来看，世界模型在字节内部是第一条命题，只是它选择先让Seedance和Doubao站在前台，自己则继续憋大招。

华&为盘古世界模型的气质，则可以用“低调但致命”来形容。

在2025年6月的开发者大会上，华&为发布了盘古大模型，核心能力是：基于盘古多模态大模型，从单张图片生成高精度的数字物理空间。它能预测碰撞、训练机械臂抓取，还能生成驾驶视频和激光雷达点云，帮助华&为ADS端到端模型实现“两天一个版本”。华&为没有喊出“世界模型”的口号，而是把它当成了智能汽车和具身智能的“训练底座”。与广汽的合作是个典型案例：2D视频和3D点云做到像素级对应，数分钟内复原复杂Corner Case。2026年6月的HDC 2026上，华&为把盘古大模型推到了7.0，并发布了昇腾910C，余承东重新挂帅盘古，但世界模型本身没有单独的新版本消息。这种“世界模型不单独存在，而是服务于产业闭环”的思路，确实符合华&为一向的风格。

百度在自动驾驶领域入局更早，2024年5月发布的Apollo ADFM被定位为“全球首个支持L4级无人驾驶的自动驾驶大模型”。虽然百度没有把它命名为世界模型，但它本质上已经具备世界模型的功能：通过端到端神经网络理解物理世界、预测交通参与者的行为。2025年11月，文心大模型5.0以原生全模态形态亮相，参数规模达到2.4万亿；2026年1月上线正式版。百度的世界模型能力其实已经藏进了更大的棋局里。百度的策略是：不单独谈世界模型，而是让Apollo和文心互为表里。

小米和商汤，则代表了两种“技术流”。

小米2026年5月13日开源的Xiaomi OneVL，把VLA、世界模型和潜空间推理统一到一个框架里，强调视觉推理过程的可解释性，做的是自动驾驶和具身智能都能用的基础件。商汤绝影的“开悟”更像一个已经上岗的“老司机”，2025年9月弗若斯特沙利文的报告将其定义为行业首个已量产、可交互的世界模型——它能生成150秒、1080P、11视角的驾驶视频，并沉淀下业内最大规模的生成式驾驶数据集WorldSim-Drive和千万级生成场景库。2026年6月，由商汤联合创始人王晓刚创立的大晓机器人又宣布完成数亿美元融资，其开悟Kairos世界模型3.0在具身视频生成、任务指令追随等多个维度上位居生成预测四大榜单榜首。商汤系的世界模型，正在从智能汽车向机器人持续蔓延。

二、车企：把世界模型当成驾校和考场

如果说互联网大厂的世界模型是在“造世界”，那车企的世界模型就是在“用世界”。

蔚来是中国车企里最先把世界模型当成旗帜来挥舞的。

2024年7月的NIO IN上，任少卿发布了NWM（NIO World Model），定位是中国首个智能驾驶世界模型。它采用多元自回归生成架构，主要做两件事：空间上的“想象重建”和时间上的“想象推演”。给一个真实场景，它能还原出3D世界；给一个三秒提示，它能生成两分钟以上的未来视频。每0.1秒，它推演216条轨迹，选出最优解。蔚来的逻辑很清晰：端到端模型不够，真正聪明的智驾系统需要像人一样“闭眼也能想象路况”。2026年6月18日，蔚来正式推送了全新版本NWM 2.0，覆盖超过70万全系用户，即便是四年前购车的老车主也能免费升级，Banyan、Cedar、Coconut+四大整车系统同步发版。新版在国内首次实现了智驾模型直接输出方向盘、加减速踏板原始操作信号，并把训练体系从“世界模型+闭环强化学习”升级为“世界模型+监督微调+闭环强化学习”三层。AEB覆盖场景是标准AEB的6.7倍，误制动概率降到十万公里一次。神玑NX9031芯片甚至被描述为“天生为世界模型设计”。

理想汽车在2024年下半年提出了“重建+生成”的世界模型思路，并在CVPR 2025上发表了DrivingSphere。

它由OccDreamer扩散模型和VideoDreamer ST-DiT共同构成，构建了一个高保真4D闭环仿真环境。传统开环仿真只能评价模型“看见了什么”，而闭环仿真能评价模型“做了什么”。理想的世界模型就像是一个可以无限生成错题的考场，让智驾系统在芯片里先把刁钻场景跑熟。到了2026年6月的Livis Day，理想把这套能力进一步升级为“马赫VLA”，原生多模态MoE架构，感知、预测、规划统一，车端双M100芯片算力达2560TOPS，反应时间为0.28秒。按照理想公布的路线图，第三季度会向AD Max用户推送全新马赫VLA，第四季度目标对齐特斯拉FSD V14。理想不再只是一家汽车公司，而是正在把自己塑造成一个具身智能系统Livis的提供商。

小鹏汽车的路径则呈现出“先做大，再做精”的层次感。

2025年4月，小鹏在香港的AI技术分享会上首次披露，他们正在研发720亿参数的超大规模自动驾驶“世界基座模型”。一年后，2026年4月1日，小鹏正式发布了X-World世界模型技术报告。它基于视频扩散生成技术，在WAN 2.2的潜空间视频生成范式上进行改造，采用3D因果VAE和视角-时间自注意力DiT，支持7路环视摄像头跨视角一致生成。X-World不是视频生成工具，而是小鹏第二代VLA的“现实世界模拟器”：仿真场景从一年前的3万个增加到50多万个，每日仿真测试里程等效3000万公里实车测试，并支持在线强化学习和海外数据生成。2026年6月的CVPR上，小鹏又首次展示了完整的世界模型技术图谱。小鹏的野心也写在了它的应用范围里：AI汽车、AI机器人、飞行汽车。它的训练数据规模目标是2亿段clips，万卡集群提供10 EFLOPS算力，每5天迭代一次。

吉利汽车在2026年CES上亮出了WAM（World Action Model），并把它塞进全域AI 2.0体系。

WAM的分层架构很有意思：上层是多模态大模型MLLM负责理解，下层是Action Expert负责动作，中间是世界模型负责推演。吉利的目标不是让智驾模型更好，而是让整车变成“一个大脑”——智驾、座舱、底盘、动力统一调度。2026年4月，极氪8X上市即交付，成为国内首款量产上车的舱驾融合超级智能体，其G-ASD 4.0就基于WAM。2026年的目标是高速L3和低速L4。

比亚迪

的世界模型还在早期预研阶段，2025年1月披露的信息显示，它在内部参考了特斯拉的路径，组建小团队快速试错，重点解决端到端智驾的Corner Case数据生成。

长城

也提出了VLA+世界模型的下一代智驾方向，并且从“战略”走向了“量产”：2026年6月，长城在智能驾驶与出海大会上分享了VLA实践，保定的九州超算中心算力达到5 EFLOPS，GPU超过一万张，坦克700将成为首款搭载Coffee Pilot 4.0 VLA系统的车型，2026年内量产上车。超过200万辆的存量车队每天产生海量数据，这是长城相对于造车新势力最为厚实的家底。

三、智驾供应商：藏在车底的世界引擎

在车厂之外，还有一批供应商把世界模型做成了“隐形引擎”。

Momenta在2026年4月的北京车展上正式发布了R7强化学习世界模型，并实现量产首发。

它是一个三层架构：世界模型预训练、世界模型仿真、强化学习。R7基于Momenta量产业务带来的超过120亿公里实车里程，从中提炼出超过1亿段“黄金数据”用于预训练，再让模型在仿真中经历海量长尾场景，最后用强化学习打磨。Momenta直接把它嵌入了端到端基座模型，目标是实现L4级标准。商业数据也在快速膨胀：搭载Momenta系统的量产车辆已突破90万台，成功交付超过100款量产车型，累计定点超过210款，方案落地英国、挪威、新加坡、澳新等超过10个国家和地区。2026年6月，Momenta通过了港交所聆讯，以“物理AI第一股”和65%的第三方城市NOA市占率冲刺IPO。足见其对世界模型的押注。

地平线在2026年5月发布了HorizonDrive，一个自回归世界模型，核心能力是分钟级的长时序驾驶视频生成。

它用video-VAE在潜在空间工作，输入高清地图、3D边界框和自车动作，再输出连续未来场景。HorizonDrive的亮点在于“自纠错”训练：通过SRR和TRD技术，让模型在生成错误时自己修正。在nuScenes上，它的FID降低了52%、FVD降低了37%、轨迹精度提升21%；单张RTX 5090能生成256×512的视频，速度5.6 FPS，或384×768视频1.7 FPS。它的定位是闭环自动驾驶仿真，帮助车企在不上路的情况下验证L3+系统。

毫末智行的DriveGPT是国内最早喊出“世界模型”口号的项目之一。

2023年4月，它发布了“雪湖·海若”，这是一个生成式自动驾驶大模型，用下一帧预测的方式构建4D表征空间。其背后是100亿帧互联网图片、480万段4D Clips和8700万公里辅助驾驶里程。毫末走的路和特斯拉World Model、Wayve GAIA-1类似：让自动驾驶大模型从“看图片”进化到“看视频”，再进化到“预测视频”。它为长城魏牌、小魔驼无人车等场景提供能力。

元戎启行在2025年8月26日发布了DeepRoute IO 2.0平台，搭载自研VLA模型。

2026年4月的北京车展上，元戎又进一步发布了基座模型技术与物理AI战略，并亮出了商业化数据：搭载其城市NOA方案的量产车辆突破30万辆，过去一年搭载元戎主动安全系统的车辆累计真实道路运行里程超过13亿公里，累计陪伴用户驾驶时长达4480万小时。元戎没有单独命名一个世界模型，但DeepRoute IO 2.0的仿真和训练体系里，世界模型是隐含的核心。

四、创业公司和大厂：两张地图，同一座城

在IT桔子发布的第一批中国世界模型创业公司报告里，那是一张由技术路线和融资故事构成的地图。而上面这张大厂布局表，则是另一张地图。两张地图指向同一座城——谁能真正让AI理解物理世界，谁就拥有了下一个时代的入口。

创业公司的优势在于专注和速度。它们可以押注一条激进的路线，比如原生世界模型、3D空间生成、VLA物理引擎，且不受现有业务牵绊。但它们的短板也很明显：缺数据、缺算力、缺量产渠道，更缺一个能把世界模型持续喂大的真实场景闭环。

大厂的问题在于组织惯性和多部门并行导致的命名混乱——阿里的三个世界模型项目甚至让外人分不清它们是不是同一件事。但与此同时，大厂手里有数据、有算力、有用户、有车辆，还有把模型跑起来的工程体系。创业公司造的是“模型”，大厂造的则是“系统”。

最危险的时刻，是当大厂把世界模型从“研究项目”变成“业务底座”的时候。华&为盘古大模型服务于ADS和机器人，腾讯HY-World服务于游戏和工业，理想DrivingSphere服务于智驾迭代，商汤开悟已经量产上车，Momenta R7已跑在超过90万台车上——这些不是发布会上的PPT，而是正在进入产品流水线的真正能力。对于创业公司来说，世界模型的窗口期正在收窄，未来的竞争会迅速从“谁能做出世界模型”变成“谁的世界模型能被大厂用得起、用得好”。

五、世界模型不是风口，是旧战争的升级

世界模型其实不算是新故事。它是语言大模型、视频生成模型、自动驾驶端到端模型、机器人VLA模型在物理世界交汇后的自然产物。大厂们纷纷入场，本身就说明这件事已经从“技术极客的玩具”变成了“产业基础设施”。

阿里、腾讯、字节、华&为、百度、小米、商汤在数字世界和物理世界之间搭起了桥；蔚来、理想、小鹏、吉利、比亚迪、长城把“桥”修到了汽车上；Momenta、地平线、毫末、元戎则在桥底下铺起了铁轨。创业公司站在桥的尽头，手里握着更精巧的图纸，却不得不面对大厂正在调动工程队的事实。

接下来的一年，世界模型赛道的核心问题大概不会是“谁做了”，而是“谁的世界模型真的在替人理解世界”。

没有统一名字的战争：国内各家大厂的世界模型版图

让机器在真正动手之前，先在内部搭一个能推演、能复盘、能无限重来的动态环境。把真实世界压缩成一个数据引擎，降低对现实数据的无尽依赖。

世界模型的核心野心：让AI真正超越“识别世界”，在脑子里预先演练一遍世界。

一、互联网巨头：从数字世界铺到物理世界

一、互联网巨头：从数字世界铺到物理世界

阿里的世界模型布局，看起来最像在“把货架上的东西一个个摆出来”。

腾讯混元走的是另一条路，它的HY-World系列更像是搭建一个“3D游戏的自动工厂”。

字节跳动的世界模型项目，更像一次带着短视频数据基因的“秘密行军”。

华&为盘古世界模型的气质，则可以用“低调但致命”来形容。

小米和商汤，则代表了两种“技术流”。

二、车企：把世界模型当成驾校和考场

二、车企：把世界模型当成驾校和考场

蔚来是中国车企里最先把世界模型当成旗帜来挥舞的。

理想汽车在2024年下半年提出了“重建+生成”的世界模型思路，并在CVPR 2025上发表了DrivingSphere。

小鹏汽车的路径则呈现出“先做大，再做精”的层次感。

吉利汽车在2026年CES上亮出了WAM（World Action Model），并把它塞进全域AI 2.0体系。

比亚迪

长城

三、智驾供应商：藏在车底的世界引擎

三、智驾供应商：藏在车底的世界引擎

Momenta在2026年4月的北京车展上正式发布了R7强化学习世界模型，并实现量产首发。

地平线在2026年5月发布了HorizonDrive，一个自回归世界模型，核心能力是分钟级的长时序驾驶视频生成。

毫末智行的DriveGPT是国内最早喊出“世界模型”口号的项目之一。

元戎启行在2025年8月26日发布了DeepRoute IO 2.0平台，搭载自研VLA模型。

四、创业公司和大厂：两张地图，同一座城

四、创业公司和大厂：两张地图，同一座城

五、世界模型不是风口，是旧战争的升级

五、世界模型不是风口，是旧战争的升级

相关阅读

相关下载