首页 > 教程攻略 > ai资讯 >Xiaomi Auto World Model - 小米推出的辅助驾驶世界模型

Xiaomi Auto World Model - 小米推出的辅助驾驶世界模型

来源：互联网时间：2026-05-26 20:57:05

Xiaomi Auto World Model是什么

在自动驾驶技术快速迭代的今天，如何让机器更精准地“理解”并“预测”这个三维世界，是行业的核心挑战。小米汽车最近推出的Xiaomi Auto World Model，就给出了一套颇具新意的解法。它本质上是一个辅助驾驶世界模型，但技术路径上做了一次深度整合——首次将三维重建（WorldRec）与视频生成（WorldGen）两大模块进行了深度耦合。

简单来说，WorldRec负责快速、准确地“复盘”过去几秒内车辆周围发生了什么，构建出一个稳定的三维场景理解；而WorldGen则基于这个理解，去“推演”未来可能发生什么，或者补全那些被遮挡、未被观测到的区域。这种“重建”与“生成”的闭环协作，让整个系统既有几何上的确定性，又具备了时空上的想象力。

从性能上看，这套模型表现相当亮眼。在Waymo数据集上的重建精度（PSNR 28.48）和nuScenes数据集上的生成质量（FVD 64.97）都达到了业界领先水平。更重要的是，它已经走出了实验室，在合成数据生成、仿真测试和辅助驾驶学堂这三大业务场景中实现了落地应用。

Xiaomi Auto World Model的主要功能

这套模型的功能设计，紧密围绕“理解”与“创造”两个核心展开，具体可以拆解为以下几个关键部分：

WorldRec 三维重建模块
：它的核心创新在于放弃了传统依赖稠密高斯分布的建模方式，转而采用了一套稀疏的3D查询锚点系统。每个锚点会主动聚合来自多个摄像头、多个时间点的特征信息，并通过可见性加权来融合最可靠的观测数据。这种设计从源头上就避免了多视角图像间的冲突和“鬼影”问题，实现了惊人的效率——10秒的视频流，仅需10秒就能完成高质量三维重建。
WorldGen 视频生成模块
：生成部分采用了“两步走”的训练策略。先通过全双向时序注意力进行预训练，让模型建立对驾驶场景的全局时空理解；再进行因果注意力微调，使其适应自回归生成任务。最关键的是，通过ODE（常微分方程）蒸馏技术，成功将生成每帧图像所需的去噪步数从50步压缩到了仅需4步，从而将单帧生成时间缩短到0.19秒，并能连续生成最长81帧（约1分钟）的未来场景、未知视角或遮挡内容。
重建-生成深度耦合
：这是整个模型的灵魂所在。重建模块为生成过程提供了坚实的3D几何先验，就像一个“地基”，确保了生成的稳定性，防止画面“跑偏”；而生成模块则像“拓荒者”，能够将重建的边界扩展到那些车辆传感器未曾观测到的时空区域。两者在训练过程中互相校正，有效抑制了长时序预测中容易出现的累积漂移误差。
极端场景生成
：现实驾驶中，暴雨、暴雪、浓雾等极端天气，或者动物突然闯入等长尾危险场景，恰恰是系统最需要训练却又最难获取数据的部分。该模型能够高质量地合成这些稀缺场景，为感知模型的鲁棒性训练提供了宝贵的“数据弹药”。
三大业务落地
：技术最终要服务于业务。目前，该模型已在三个方向形成闭环：一是合成数据生成，已交付超过10万个数据片段；二是用于闭环仿真测试，可以精准复现真实事故场景进行定向算法优化；三是集成到车机系统，作为“辅助驾驶学堂”的一部分，动态生成第一人称的教学视频，帮助用户理解复杂路况下的正确操作。

Xiaomi Auto World Model的技术原理

光看功能可能还不够，我们再来深入一层，看看这些功能背后有哪些关键的技术原理在支撑。

WorldRec 稀疏锚点表征
：传统方法往往对每个像素点进行高斯属性预测，计算量大且容易不一致。小米的方案是，在三维空间中布置一系列稀疏的、可学习的查询点（锚点）。每个锚点不再被动接收信息，而是主动去“询问”所有摄像头在不同时刻看到了什么，然后根据这些观测的可靠程度（可见性加权）进行融合。这相当于建立了一个高效、一致的跨视角沟通机制。
4D Gaussian 全局表示
：模型会维护一个随着车辆行驶、观测数据不断增量更新的4D（空间三维+时间一维）高斯场景表示。这个动态的“世界地图”在投影到当前车辆视角后，就成为了生成模型的确定性输入。它为“天马行空”的生成过程套上了一个符合物理几何规律的“缰绳”。
WorldGen 两阶段训练
：生成模型的训练颇有章法。第一阶段是“通识教育”，利用全双向注意力让模型博览各种驾驶场景，建立宏观认知。第二阶段是“专项训练”，转为因果注意力并采用教师强制策略，让模型学会一步步地预测未来。而ODE蒸馏技术则是“加速神器”，它在保持生成质量的同时，将推理速度提升了12倍，并巧妙地解决了自回归训练中常见的“暴露偏差”问题。
重建-生成闭环约束
：两个模块并非独立工作，而是在损失函数层面就进行了结构化的相互约束。重建的确定性目标不断“纠正”生成可能出现的几何失真，而生成的目标又鼓励重建表示能更好地支持预测任务。这种你中有我、我中有你的设计，是实现高稳定性、一致性和真实性的关键。

如何使用Xiaomi Auto World Model

对于终端用户而言，接触这个强大模型的门槛其实很低。目前，它已经作为一项核心功能，集成到了小米汽车SU7等车型的智能座舱系统中。

上线平台
：具体路径是在车载系统内找到「辅助驾驶学堂」模块，其中的「实景模拟场景」功能便是由Xiaomi Auto World Model驱动的。
使用条件
：用户需要拥有一台搭载了该功能的小米汽车。在车辆静止或安全状态下，进入相应模块，即可体验由模型动态生成的、针对各种复杂路况的驾驶教学模拟视频。

Xiaomi Auto World Model的核心优势

在竞争激烈的自动驾驶世界模型赛道中，小米的这套方案之所以引人注目，源于其在几个维度上建立的综合优势。

SOTA 性能
：数据最能说明问题。在权威的Waymo重建任务中，其PSNR达到28.48，比之前的优秀方法（如DGGT）高出约1个点；在nuScenes数据集上的零样本泛化测试中，PSNR 26.54同样领先。生成质量方面，Fréchet Video Distance (FVD) 分数低至64.97，超越了所有已知的双向与自回归基线模型。
极速推理
：效率是落地的前提。其单视角生成速度达到0.19秒/帧，三视角也仅需0.46秒/帧。相比之下，同类自回归方法如Epona需要1.06秒/帧，小米的方案快了5.6倍，为实时交互应用提供了可能。
超长时序
：很多模型在生成长序列视频时会出现质量崩塌或严重漂移。该模型支持连续生成81帧（在10Hz或30Hz下，最长约1分钟），这远远超过了目前多数公开基线模型8-16帧的限制，展现了出色的时序一致性保持能力。
零样本泛化
：在未经过专门训练的nuScenes数据集上依然表现优异，这证明了其底层表征具有较强的泛化能力，能够较好地适应新的城市环境和驾驶场景，降低了针对不同地区重复训练的成本。
已落地生产
：技术优势最终转化为了商业价值。它没有停留在论文阶段，而是已经深度融入小米汽车的合成数据生产线、仿真测试流程和智能座舱产品中，形成了完整的业务闭环，这是其区别于很多研究型项目最显著的一点。

Xiaomi Auto World Model的项目地址

对于希望深入了解技术细节的研究人员和开发者，小米也开放了相关的技术资源。

项目官网
：https://JointWM.github.io/
arXiv技术论文
：https://arxiv.org/pdf/2605.18137

Xiaomi Auto World Model的同类竞品对比

要看清一个技术的定位，最好的方式就是对比。我们将其与行业另一巨头Waymo在2026年初发布的世界模型进行一番横向比较。

对比维度	Xiaomi Auto World Model	Waymo World Model
所属公司	小米汽车	Waymo（Alphabet/Google）
发布时间	2026年5月	2026年2月
技术路线	重建+生成深度耦合一体化架构（WorldRec + WorldGen 互相约束）	基于 Genie 3 的生成式世界模型（纯生成路线，后训练适配驾驶场景）
重建模块	WorldRec：稀疏 3D 锚点表征，10秒视频10秒重建，PSNR 28.48（Waymo数据集）	无独立重建模块，依赖 Genie 3 的预训练世界知识生成全场景
生成模块	WorldGen：4步去噪，0.19秒/帧，支持81帧（~1分钟）连续生成	基于 Genie 3 生成，支持多传感器输出（相机+LiDAR），可模拟极端场景
架构特点	重建给生成“打地基”（几何约束），生成给重建“扩边界”（补全未观测区域）	纯生成式，通过语言/动作/场景布局三种控制机制调整模拟
传感器支持	主要面向相机数据（多视角图像输入）	相机 + LiDAR 多传感器输出，可将普通行车记录仪视频转为多传感器模拟数据
基准测试	Waymo PSNR 28.48（超DGGT约1个点）；nuScenes FVD 64.97，FID 7.04	未公开具体量化指标，强调可模拟“从未见过”的长尾场景
生成速度	单视角 0.19秒/帧，三视角 0.46秒/帧	未公开具体推理速度，强调“可扩展推理”与高效变体
最大生成时长	81帧（10Hz/30Hz，最长约1分钟）	未明确公开，Genie 3 原生支持数分钟级别一致生成
极端场景能力	暴雨、大雪、浓雾、动物闯入等长尾场景生成	龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等
业务落地	已落地三大场景：合成数据（10万+ clips）、仿真测试、辅助驾驶学堂	用于 Waymo Driver 训练与验证，支撑 robotaxi 扩张（2026年目标100万周订单）

通过对比不难发现，两者代表了不同的技术哲学：Waymo模型依托其强大的通用生成基础（Genie 3），强调多模态生成和场景控制的灵活性；而小米模型则更专注于驾驶领域，通过重建与生成的深度耦合，在推理速度、量化精度和现有业务集成度上展现了优势。

Xiaomi Auto World Model的应用场景

一项技术的价值，最终体现在它能解决什么问题。Xiaomi Auto World Model目前主要聚焦于三个核心应用场景，它们共同构成了自动驾驶研发与用户体验提升的闭环。

合成数据生成
：这是当前最直接、最迫切的需求。真实世界中，极端天气、严重事故等高风险、长尾场景的数据极其稀缺。该模型能够按需生成高质量、高多样性的合成数据，为感知、预测等模型的训练“查漏补缺”，大幅提升系统在 corner case 下的表现。
仿真测试
：在虚拟环境中进行海量、极限测试是加速自动驾驶系统成熟的必由之路。该模型可以高保真地复现真实发生过的交通事故场景，让算法在闭环仿真中不断进行定向优化和验证，从而以极低的成本和零风险的方式，提升测试的效率和覆盖度。
辅助驾驶学堂
：这是面向终端用户的创新应用。在智能座舱内，系统可以基于车辆即将或正在面临的复杂路况（如复杂环岛、施工区域），动态生成第一人称视角的驾驶教学视频，直观地向用户展示系统的能力边界和正确的接管方式，从而提升人机共驾的安全性与用户信心。

Xiaomi Auto World Model - 小米推出的辅助驾驶世界模型

Xiaomi Auto World Model是什么

Xiaomi Auto World Model的主要功能

WorldRec 三维重建模块

WorldGen 视频生成模块

重建-生成深度耦合

极端场景生成

三大业务落地

Xiaomi Auto World Model的技术原理

WorldRec 稀疏锚点表征

4D Gaussian 全局表示

WorldGen 两阶段训练

重建-生成闭环约束

如何使用Xiaomi Auto World Model

上线平台

使用条件

Xiaomi Auto World Model的核心优势

SOTA 性能

极速推理

超长时序

零样本泛化

已落地生产

Xiaomi Auto World Model的项目地址

项目官网

arXiv技术论文

Xiaomi Auto World Model的同类竞品对比

Xiaomi Auto World Model

Waymo World Model

所属公司

发布时间

技术路线

重建+生成深度耦合一体化架构

基于 Genie 3 的生成式世界模型

重建模块

生成模块

架构特点

传感器支持

相机 + LiDAR 多传感器输出

基准测试

生成速度

最大生成时长

81帧（10Hz/30Hz，最长约1分钟）

极端场景能力

业务落地

已落地三大场景

Xiaomi Auto World Model的应用场景

合成数据生成

仿真测试

辅助驾驶学堂

相关阅读

相关下载