Xiaomi Auto World Model - 小米推出的辅助驾驶世界模型
Xiaomi Auto World Model是什么
在自动驾驶技术快速迭代的今天,如何让机器更精准地“理解”并“预测”这个三维世界,是行业的核心挑战。小米汽车最近推出的Xiaomi Auto World Model,就给出了一套颇具新意的解法。它本质上是一个辅助驾驶世界模型,但技术路径上做了一次深度整合——首次将三维重建(WorldRec)与视频生成(WorldGen)两大模块进行了深度耦合。
简单来说,WorldRec负责快速、准确地“复盘”过去几秒内车辆周围发生了什么,构建出一个稳定的三维场景理解;而WorldGen则基于这个理解,去“推演”未来可能发生什么,或者补全那些被遮挡、未被观测到的区域。这种“重建”与“生成”的闭环协作,让整个系统既有几何上的确定性,又具备了时空上的想象力。
从性能上看,这套模型表现相当亮眼。在Waymo数据集上的重建精度(PSNR 28.48)和nuScenes数据集上的生成质量(FVD 64.97)都达到了业界领先水平。更重要的是,它已经走出了实验室,在合成数据生成、仿真测试和辅助驾驶学堂这三大业务场景中实现了落地应用。
Xiaomi Auto World Model的主要功能
这套模型的功能设计,紧密围绕“理解”与“创造”两个核心展开,具体可以拆解为以下几个关键部分:
- :它的核心创新在于放弃了传统依赖稠密高斯分布的建模方式,转而采用了一套稀疏的3D查询锚点系统。每个锚点会主动聚合来自多个摄像头、多个时间点的特征信息,并通过可见性加权来融合最可靠的观测数据。这种设计从源头上就避免了多视角图像间的冲突和“鬼影”问题,实现了惊人的效率——10秒的视频流,仅需10秒就能完成高质量三维重建。
WorldRec 三维重建模块
- :生成部分采用了“两步走”的训练策略。先通过全双向时序注意力进行预训练,让模型建立对驾驶场景的全局时空理解;再进行因果注意力微调,使其适应自回归生成任务。最关键的是,通过ODE(常微分方程)蒸馏技术,成功将生成每帧图像所需的去噪步数从50步压缩到了仅需4步,从而将单帧生成时间缩短到0.19秒,并能连续生成最长81帧(约1分钟)的未来场景、未知视角或遮挡内容。
WorldGen 视频生成模块
- :这是整个模型的灵魂所在。重建模块为生成过程提供了坚实的3D几何先验,就像一个“地基”,确保了生成的稳定性,防止画面“跑偏”;而生成模块则像“拓荒者”,能够将重建的边界扩展到那些车辆传感器未曾观测到的时空区域。两者在训练过程中互相校正,有效抑制了长时序预测中容易出现的累积漂移误差。
重建-生成深度耦合
- :现实驾驶中,暴雨、暴雪、浓雾等极端天气,或者动物突然闯入等长尾危险场景,恰恰是系统最需要训练却又最难获取数据的部分。该模型能够高质量地合成这些稀缺场景,为感知模型的鲁棒性训练提供了宝贵的“数据弹药”。
极端场景生成
- :技术最终要服务于业务。目前,该模型已在三个方向形成闭环:一是合成数据生成,已交付超过10万个数据片段;二是用于闭环仿真测试,可以精准复现真实事故场景进行定向算法优化;三是集成到车机系统,作为“辅助驾驶学堂”的一部分,动态生成第一人称的教学视频,帮助用户理解复杂路况下的正确操作。
三大业务落地
Xiaomi Auto World Model的技术原理
光看功能可能还不够,我们再来深入一层,看看这些功能背后有哪些关键的技术原理在支撑。
- :传统方法往往对每个像素点进行高斯属性预测,计算量大且容易不一致。小米的方案是,在三维空间中布置一系列稀疏的、可学习的查询点(锚点)。每个锚点不再被动接收信息,而是主动去“询问”所有摄像头在不同时刻看到了什么,然后根据这些观测的可靠程度(可见性加权)进行融合。这相当于建立了一个高效、一致的跨视角沟通机制。
WorldRec 稀疏锚点表征
- :模型会维护一个随着车辆行驶、观测数据不断增量更新的4D(空间三维+时间一维)高斯场景表示。这个动态的“世界地图”在投影到当前车辆视角后,就成为了生成模型的确定性输入。它为“天马行空”的生成过程套上了一个符合物理几何规律的“缰绳”。
4D Gaussian 全局表示
- :生成模型的训练颇有章法。第一阶段是“通识教育”,利用全双向注意力让模型博览各种驾驶场景,建立宏观认知。第二阶段是“专项训练”,转为因果注意力并采用教师强制策略,让模型学会一步步地预测未来。而ODE蒸馏技术则是“加速神器”,它在保持生成质量的同时,将推理速度提升了12倍,并巧妙地解决了自回归训练中常见的“暴露偏差”问题。
WorldGen 两阶段训练
- :两个模块并非独立工作,而是在损失函数层面就进行了结构化的相互约束。重建的确定性目标不断“纠正”生成可能出现的几何失真,而生成的目标又鼓励重建表示能更好地支持预测任务。这种你中有我、我中有你的设计,是实现高稳定性、一致性和真实性的关键。
重建-生成闭环约束
如何使用Xiaomi Auto World Model
对于终端用户而言,接触这个强大模型的门槛其实很低。目前,它已经作为一项核心功能,集成到了小米汽车SU7等车型的智能座舱系统中。
- :具体路径是在车载系统内找到「辅助驾驶学堂」模块,其中的「实景模拟场景」功能便是由Xiaomi Auto World Model驱动的。
上线平台
- :用户需要拥有一台搭载了该功能的小米汽车。在车辆静止或安全状态下,进入相应模块,即可体验由模型动态生成的、针对各种复杂路况的驾驶教学模拟视频。
使用条件
Xiaomi Auto World Model的核心优势
在竞争激烈的自动驾驶世界模型赛道中,小米的这套方案之所以引人注目,源于其在几个维度上建立的综合优势。
- :数据最能说明问题。在权威的Waymo重建任务中,其PSNR达到28.48,比之前的优秀方法(如DGGT)高出约1个点;在nuScenes数据集上的零样本泛化测试中,PSNR 26.54同样领先。生成质量方面,Fréchet Video Distance (FVD) 分数低至64.97,超越了所有已知的双向与自回归基线模型。
SOTA 性能
- :效率是落地的前提。其单视角生成速度达到0.19秒/帧,三视角也仅需0.46秒/帧。相比之下,同类自回归方法如Epona需要1.06秒/帧,小米的方案快了5.6倍,为实时交互应用提供了可能。
极速推理
- :很多模型在生成长序列视频时会出现质量崩塌或严重漂移。该模型支持连续生成81帧(在10Hz或30Hz下,最长约1分钟),这远远超过了目前多数公开基线模型8-16帧的限制,展现了出色的时序一致性保持能力。
超长时序
- :在未经过专门训练的nuScenes数据集上依然表现优异,这证明了其底层表征具有较强的泛化能力,能够较好地适应新的城市环境和驾驶场景,降低了针对不同地区重复训练的成本。
零样本泛化
- :技术优势最终转化为了商业价值。它没有停留在论文阶段,而是已经深度融入小米汽车的合成数据生产线、仿真测试流程和智能座舱产品中,形成了完整的业务闭环,这是其区别于很多研究型项目最显著的一点。
已落地生产
Xiaomi Auto World Model的项目地址
对于希望深入了解技术细节的研究人员和开发者,小米也开放了相关的技术资源。
- :https://JointWM.github.io/
项目官网
- :https://arxiv.org/pdf/2605.18137
arXiv技术论文
Xiaomi Auto World Model的同类竞品对比
要看清一个技术的定位,最好的方式就是对比。我们将其与行业另一巨头Waymo在2026年初发布的世界模型进行一番横向比较。
| 对比维度 | Xiaomi Auto World Model |
Waymo World Model |
|---|---|---|
所属公司 |
小米汽车 | Waymo(Alphabet/Google) |
发布时间 |
2026年5月 | 2026年2月 |
技术路线 |
重建+生成深度耦合一体化架构 |
基于 Genie 3 的生成式世界模型 |
重建模块 |
WorldRec:稀疏 3D 锚点表征,10秒视频10秒重建,PSNR 28.48(Waymo数据集) | 无独立重建模块,依赖 Genie 3 的预训练世界知识生成全场景 |
生成模块 |
WorldGen:4步去噪,0.19秒/帧,支持81帧(~1分钟)连续生成 | 基于 Genie 3 生成,支持多传感器输出(相机+LiDAR),可模拟极端场景 |
架构特点 |
重建给生成“打地基”(几何约束),生成给重建“扩边界”(补全未观测区域) | 纯生成式,通过语言/动作/场景布局三种控制机制调整模拟 |
传感器支持 |
主要面向相机数据(多视角图像输入) | 相机 + LiDAR 多传感器输出 |
基准测试 |
Waymo PSNR 28.48(超DGGT约1个点);nuScenes FVD 64.97,FID 7.04 | 未公开具体量化指标,强调可模拟“从未见过”的长尾场景 |
生成速度 |
单视角 0.19秒/帧,三视角 0.46秒/帧 | 未公开具体推理速度,强调“可扩展推理”与高效变体 |
最大生成时长 |
81帧(10Hz/30Hz,最长约1分钟) |
未明确公开,Genie 3 原生支持数分钟级别一致生成 |
极端场景能力 |
暴雨、大雪、浓雾、动物闯入等长尾场景生成 | 龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等 |
业务落地 |
已落地三大场景 |
用于 Waymo Driver 训练与验证,支撑 robotaxi 扩张(2026年目标100万周订单) |
通过对比不难发现,两者代表了不同的技术哲学:Waymo模型依托其强大的通用生成基础(Genie 3),强调多模态生成和场景控制的灵活性;而小米模型则更专注于驾驶领域,通过重建与生成的深度耦合,在推理速度、量化精度和现有业务集成度上展现了优势。
Xiaomi Auto World Model的应用场景
一项技术的价值,最终体现在它能解决什么问题。Xiaomi Auto World Model目前主要聚焦于三个核心应用场景,它们共同构成了自动驾驶研发与用户体验提升的闭环。
- :这是当前最直接、最迫切的需求。真实世界中,极端天气、严重事故等高风险、长尾场景的数据极其稀缺。该模型能够按需生成高质量、高多样性的合成数据,为感知、预测等模型的训练“查漏补缺”,大幅提升系统在 corner case 下的表现。
合成数据生成
- :在虚拟环境中进行海量、极限测试是加速自动驾驶系统成熟的必由之路。该模型可以高保真地复现真实发生过的交通事故场景,让算法在闭环仿真中不断进行定向优化和验证,从而以极低的成本和零风险的方式,提升测试的效率和覆盖度。
仿真测试
- :这是面向终端用户的创新应用。在智能座舱内,系统可以基于车辆即将或正在面临的复杂路况(如复杂环岛、施工区域),动态生成第一人称视角的驾驶教学视频,直观地向用户展示系统的能力边界和正确的接管方式,从而提升人机共驾的安全性与用户信心。
辅助驾驶学堂