Xiaomi Auto WorldModel快速摘要
Xiaomi Auto WorldModel是小米汽车团队提出的自动驾驶世界模型系统,基于WorldRec与WorldGen双模块架构,实现三维场景重建与视频生成统一建模,适用于闭环仿真、数据合成与端到端自动驾驶训练。
- 模型名称:Xiaomi Auto WorldModel(Joint World Model)
- 开发公司:Xiaomi Auto WorldModel Team,小米汽车自动驾驶研发团队。
- 发布时间:2026年5月
- 核心架构:WorldRec + WorldGen + Joint World Model三层系统结构。
- 论文来源:Technical Report,基于arXiv公开技术报告体系。
- 任务类型:世界表示(World Representation)与世界生成(World Generation)。
- 重建机制:Sparse scene queries驱动的feed-forward 3D Gaussian重建。
- 生成机制:DiT扩散Transformer + 三阶段训练(TF → ODE distillation → DMD)。
- 推理效率:WorldGen可实现4步去噪生成,支持0.19s/frame推理速度。
- 场景长度:支持最长81帧连续驾驶视频生成序列。
- 应用场景:自动驾驶闭环仿真、数据合成、端到端训练。
- 开源情况:仅技术报告公开,系统级实现未完全开源。

Xiaomi Auto WorldModel的核心优势
- 双任务统一建模:WorldModel将世界表示与世界生成统一为单一系统,通过WorldRec与WorldGen协同优化,实现从3D重建到视频生成的闭环链路。
- 稀疏查询重建:WorldRec采用sparse scene queries初始化3D空间结构,通过跨视角与跨时间注意力聚合特征,避免传统per-scene优化带来的小时级训练成本。
- 低步数扩散生成:WorldGen基于DiT架构结合ODE distillation与DMD蒸馏,将传统扩散模型数十至数百步推理压缩至4步生成,用于降低自动驾驶视频生成延迟并提升在线仿真效率。
- 闭环一致性增强:Joint World Model通过rendered RGB prior与ego-projected conditioning提供几何约束,使生成过程依赖4D场景结构记忆,减少长时序生成中的漂移与幻觉问题。
- 长序列生成能力:模型支持最长81帧驾驶序列生成,相比传统8–16帧模型具有更强时序扩展能力,用于复杂交通场景模拟与长尾驾驶行为建模。
Xiaomi Auto WorldModel的核心功能
- 三维场景重建:WorldRec基于multi-view视频输入构建3D Gaussian场景表示,通过sparse query聚合实现10秒视频约10秒重建,用于自动驾驶环境建模与空间理解。
- 驾驶视频生成:WorldGen基于DiT扩散模型生成连续驾驶视频序列,通过4步去噪推理生成最长81帧场景,用于未来轨迹预测与交通演化模拟。
- 闭环仿真训练:系统支持从真实驾驶数据生成仿真环境,用于自动驾驶策略训练与行为测试,可模拟复杂交通交互如加塞、行人横穿与极端天气。
- 数据合成扩展:通过生成式世界模型自动扩展训练数据分布,用于补充长尾场景数据,提高自动驾驶模型在低频事件中的鲁棒性与泛化能力。
- 多视角一致性建模:JointWM通过多摄像头输入实现跨视角空间一致性建模,保证车辆、道路与环境在不同视角下的结构一致性与几何稳定性。
Xiaomi Auto WorldModel的技术原理
- WorldRec重建机制:采用sparse scene queries初始化3D空间token,通过visibility-aware attention融合跨视角与跨时间特征,生成compact 3D Gaussian representation,用于替代per-scene优化。
- WorldGen生成机制:基于Diffusion Transformer架构,采用bidirectional pretraining学习全局时空分布,再通过causal fine-tuning引入时间因果约束,实现视频序列生成能力。
- 三阶段对齐训练:包括Teacher Forcing、ODE distillation与DMD训练阶段,将高步数扩散模型压缩为低步数推理模型,实现生成加速与分布对齐。
- 4D场景融合机制:JointWM通过incremental scene fusion持续更新空间表示,使新观测数据与历史4D结构融合,构建连续驾驶场景记忆系统。
- rendered prior条件控制:通过ego-projected rendered RGB作为生成条件输入,为WorldGen提供部分几何约束,从而提升未观测区域生成一致性。
Xiaomi Auto WorldModel与主流模型对比
| 维度 | Xiaomi WorldModel | GAIA-1 | DriveDreamer | NVIDIA Cosmos |
|---|---|---|---|---|
| 模型出处 | Xiaomi Auto WorldModel Team | Wayve | 华中科技大学等团队 | NVIDIA |
| 核心范式 | 重建+生成统一世界模型 | 生成式驾驶模型 | 驾驶视频扩散模型 | 通用物理世界模型 |
| 重建能力 | Sparse query 3D Gaussian | 弱或无显式重建 | 部分隐式建模 | 物理驱动建模 |
| 生成能力 | DiT + 4步扩散 | 扩散生成 | 扩散生成 | 高算力生成 |
| 闭环仿真 | 完整闭环支持 | 部分支持 | 支持 | 支持 |
| 序列长度 | 81帧 | 8–16帧 | 8–16帧 | 可扩展 |
| 关键优势 | 4D一致性+低步数生成 | 动作控制能力 | 视频生成能力 | 通用物理模拟 |
根据公开技术报告与论文测试结果,Xiaomi Auto WorldModel的核心差异在于WorldRec与WorldGen的深度联合建模结构。相比GAIA-1与DriveDreamer主要依赖生成模型进行驾驶场景预测,Xiaomi Auto WorldModel额外引入显式4D空间重建,通过sparse scene queries与incremental scene fusion增强几何一致性。NVIDIA Cosmos则更偏向通用物理世界模拟与机器人训练,在自动驾驶垂直场景中的优化方向不同。据Waymo与nuScenes实验结果显示,Xiaomi Auto WorldModel在长时序稳定性、跨视角一致性与低步数推理效率方面表现更突出,尤其适用于闭环仿真与长尾驾驶数据生成场景。
如何使用Xiaomi Auto WorldModel
- 输入数据准备:使用多摄像头驾驶视频作为输入,建议帧率≥30FPS,用于保证跨时间建模稳定性与空间重建精度。
- WorldRec重建配置:设置sparse scene queries初始化数量(建议≥1024),用于构建3D Gaussian场景表示并减少重建误差。
- WorldGen训练流程:执行bidirectional pretraining后进行causal fine-tuning,并依次应用Teacher Forcing、ODE distillation与DMD压缩推理步骤。
- 闭环仿真执行:将模型输出接入自动驾驶仿真环境,用于生成复杂交通场景并验证车辆决策行为。
- 推理加速优化:启用4步去噪生成模式并使用GPU加速推理,用于实现0.19s/frame级别的生成性能。
Xiaomi Auto WorldModel的局限性
- 系统未完全开源:当前仅发布技术报告与论文,完整训练代码与工业系统未开放,限制外部开发者直接复现能力。
- 算力依赖较高:多视角视频建模与4D重建需要高性能GPU集群支持,在大规模训练场景中资源成本较高。
- 实时应用受限:尽管采用4步扩散加速,但复杂交通场景生成仍偏离严格实时车端部署需求。
Xiaomi Auto WorldModel相关资源
- 项目官网:https://JointWM.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2605.18137
Xiaomi Auto WorldModel常见问题
Xiaomi Auto WorldModel是什么?
是小米汽车提出的自动驾驶世界模型系统,通过WorldRec与WorldGen统一实现三维重建与视频生成,用于闭环仿真与训练。
Xiaomi Auto WorldModel支持多少帧生成?
WorldGen支持最长81帧驾驶序列生成,用于长时序交通场景模拟与预测任务。
Xiaomi Auto WorldModel如何实现加速?
通过ODE distillation与DMD将扩散生成压缩至4步推理,实现0.19s/frame生成速度。
Xiaomi Auto WorldModel是否开源?
当前仅公开技术报告与论文,完整系统与训练代码未开放。
Xiaomi Auto WorldModel和GAIA-1区别?
GAIA-1以生成式模型为主,而本模型强调重建+生成联合架构,在跨帧一致性方面更强。
Xiaomi Auto WorldModel适用于什么场景?
用于自动驾驶闭环仿真、数据合成扩展与端到端驾驶策略训练。
© 版权声明
本站文章版权归AI工具箱所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...
浙公网安备33010202004812号