小米汽车世界模型全新框架:重建+生成一体化,主流基准测试全面 SOTA
过去几年,“世界模型”概念的兴起,正在悄然改变人工智能的发展轨迹。它让AI不再仅仅停留在虚拟的文字和图像世界,而是开始尝试理解并推演物理世界的运行规律。智能汽车,作为AI从数字空间迈向物理世界的天然载体,自然成为了世界模型技术落地的前沿阵地。
今天,小米汽车正式发布了其全新的“Xiaomi Auto World Model”框架。这套方案为业界提供了一条将三维重建与视频生成深度耦合的全新路径,旨在推动智能驾驶的感知系统,从基础的“场景感知”向更高阶的“认知推演与场景进化”形态跃迁。
这并非简单的功能叠加。传统方案通常将重建(WorldRec)与生成(WorldGen)模块独立开发后再串联,但两者目标存在内在矛盾:重建追求几何保真,生成追求内容多样。简单拼接往往导致优势互损。小米的框架则尝试从根本上解决这一问题,通过一体化设计让两者在结构上相互约束、协同增益。目前,该框架已在Waymo、nuScenes等主流基准测试中取得全面领先(SOTA)的成绩,并成功应用于小米汽车的合成数据生成、仿真测试与智能座舱三大核心业务场景。
世界模型:为辅助驾驶装上“预演大脑”
想象这样一个场景:在高速公路上,前方突然滚落一个轮胎。要让车辆的辅助驾驶系统妥善处理此类突发状况,传统方法需要它在海量真实数据中“见过”足够多的类似案例。然而,现实世界中的极端情况——比如暴雨中突然冲出的行人、山路上的落石、对向车道的逆行车辆——虽然发生概率极低,但一旦出现就可能是致命的。我们无法穷尽所有可能性。
这正是世界模型的价值所在。它能够基于历史和当前的观测,预测周围环境在未来时刻的可能演化。对于辅助驾驶而言,这意味着车辆不仅能够“看见”当下,更具备了“想象”未来的能力,从而为决策争取宝贵时间。
目前,构建世界模型主要有两条技术路线:
重建(WorldRec)
生成(WorldGen)
- 擅长从多视角观测中恢复几何结构精确的3D场景,保真度高、一致性强,但局限在于它只能还原已经观测到的内容,缺乏对未知或未来场景的“想象力”。
重建路线
- 则通过扩散模型等技术直接预测未来画面,能够“想象”未观测的视角和未发生的场景,但缺点是由于缺乏显式的3D结构约束,生成长时序视频时容易产生内容漂移和失真。
生成路线
一个很自然的想法是:能否将两者结合,取长补短?现有方法多采用简单的串联模式——先重建一个场景,再将其作为条件输入生成模型。但这存在一个根本性矛盾:
重建的目标是追求确定性的几何精确,而生成的目标是追求概率分布层面的多样性,两者的优化目标在设计上并不一致。
小米的解法:一体化框架,实现“1+1>2”
Xiaomi Auto World Model 提出的,正是一个将重建与生成深度耦合的全新整合框架。其核心思想是让两个模块在训练和推理过程中相互约束、共同进化:
- :重建模块(WorldRec)会维护一个随观测实时扩展的4D高斯全局场景表示。将这个精确的3D几何投影到自车视角后,便作为强先验输入给生成模型。这意味着,在车辆已经观测过的区域,生成模型不再“天马行空”,而是被坚实的几何结构所约束——车道线、建筑物位置、多相机间的一致性都由重建来保证,生成模型则专注于补全光照、纹理以及未被直接观测的细节。
重建为生成“锚定地基”
- :在重建无法覆盖的时空区域,例如未来的帧、被遮挡的视角或未驶过的道路,生成模块(WorldGen)便发挥其“想象力”,将内容高质量地补全,从而让整个世界模型突破“历史轨迹”的局限。
生成为重建“扩展边界”
- :重建提供的确定性几何先验,能够持续校正生成过程,从根源上抑制因自回归预测带来的累积误差,使得生成长达一分钟的视频序列也能保持高度的稳定性。
协同抑制长时序漂移
简而言之,重建提供了稳定的3D几何锚点,约束着生成过程的“骨架”;而生成为系统补全了“血肉”,并将预测能力延伸到观测之外。两者形成闭环,最终在三个关键维度上实现了协同增益:
高稳定性
高一致性
高真实性

WorldRec:从“逐像素”到“稀疏锚点”的高效重建
要深入理解这套协同机制,首先要看重建侧做了什么革新。当前主流的前馈式三维重建方法,普遍采用“为每个像素预测高斯属性”的范式。每张图像独立产生一套高斯点云,再后融合到三维空间中。这种方法容易导致“鬼影”、分层等问题,且渲染开销巨大(常涉及上亿高斯点)。
问题的根源或许不在于融合策略,而在于表征本身——缺乏一种机制来约束“同一个三维空间点必须在所有视角下收敛为同一个高斯”。
基于这一洞察,WorldRec模块的核心思路是将场景表示从“稠密像素”转换为
稀疏的三维查询点
- :用一组稀疏的、具有唯一三维位置的查询点,替代数以亿计的稠密高斯点,从源头避免了多视角间的特征冲突。
稀疏三维锚点表征
- :每个锚点会主动“观察”所有相机在不同时刻拍摄的图像,并聚合这些跨视角、跨时间的特征证据,形成全局一致的场景理解。
多视角多时序特征聚合
- :系统会自动降低被遮挡或强反光视角的权重,提升清晰可靠视角的权重,让模型聚焦于最可信的观测数据。
可见性加权融合

WorldGen:从“逐帧修图”到“自由绘画”的生成引擎
有了精确的3D场景作为“锚点”,生成侧的任务就变得明确:在重建覆盖不到的“空白区域”——未来帧、未观测视角、遮挡部分——进行高质量的内容补全。
WorldGen不再是一个需要大量迭代“修图”的模型,而是一个能够“自由绘画”的高效生成引擎。它仅需4步去噪,约0.19秒即可生成一帧,并支持最长1分钟的连续视频生成。
其能力源于两阶段训练策略:
- 。使用全双向时序注意力机制,让模型同时看到所有帧,从而建立起对驾驶场景时空分布的宏观认知。
第一阶段:全局理解预训练
- 。切换到因果注意力进行教师强制(Teacher Forcing)训练,随后通过ODE蒸馏技术将去噪步数从50步压缩至4步,实现12倍的加速。最后,通过分布匹配蒸馏解决暴露偏差问题,从根本上抑制长序列生成中的内容漂移。
第二阶段:因果蒸馏微调
除了效率,WorldGen的真正价值在于其应对真实世界“长尾”极端场景的能力。无论是罕见的动物闯入(如马匹、老虎突然出现在路面),还是极端恶劣天气(如暴雨、大雪、浓雾),WorldGen都能生成高质量、高保真的场景数据。这为训练辅助驾驶感知模型提供了极其宝贵且难以获取的虚拟数据,直接提升了系统在危险场景下的识别与应对能力。

全面领先的性能与三大落地场景
技术上的“1+1>2”,最终需要硬核的实测数据来证明。
在三维重建领域,Xiaomi Auto World Model的WorldRec模块在Waymo公开数据集上全面超越了之前的SOTA方法DGGT。其PSNR(峰值信噪比,衡量重建精度的核心指标,数值越高越好)达到28.48,领先约1个点。更重要的是,在nuScenes数据集上的零样本泛化测试中,它对比其他SOTA方法依然保持领先,证明了其强大的场景适应能力,而非仅在特定数据集上表现优异。
在视频生成领域,Xiaomi Auto World Model的WorldGen模块在H20 GPU上,单视角生成速度达到0.19秒/帧,三视角为0.46秒/帧。对比同为自回归方法的Epona(1.06秒/帧),速度快了5.6倍。同时,WorldGen支持高达81帧的连续生成(支持10Hz/30Hz,最长1分钟),而大多数公开基线模型仅能生成8-16帧。在权威的nuScenes数据集评测中,WorldGen取得了FVD 64.97和FID 7.04的成绩,其FVD指标超越了所有对比的双向与自回归模型,保持了极具竞争力的生成质量。
目前,Xiaomi Auto World Model已经深度融入小米汽车的三大实际业务场景:
- :已交付超过10万段高质量合成数据片段,直接用于感知模型的训练,显著提升了车辆对危险场景的识别能力。
合成数据生成
- :用于构建高保真的闭环仿真环境,极大优化测试效率与完备性,甚至能够复现真实事故案例进行定向算法优化。
仿真测试
- :利用世界模型动态生成第一人称驾驶教学视频。当用户面对复杂路况时,系统可以通过生成式视频直观展示正确操作流程。该功能目前已上线小米全车型的“辅助驾驶学堂-实景模拟”场景。
辅助驾驶学堂
从被动“看见”到主动“想象”,Xiaomi Auto World Model正在为智能辅助驾驶构建一个可预测、可推演的“数字平行世界”。这不仅是实验室榜单上的技术突破,更是已经转化为实际生产力的业务引擎。下一步,小米汽车将继续探索预训练与闭环训练范式,致力于推动端到端自动驾驶模型的认知能力实现新的跃升。
