Xiaomi Auto WorldModel – 小米汽车推出的自动驾驶世界模型系统

AI模型2天前更新 老高
124 0

Xiaomi Auto WorldModel快速摘要

Xiaomi Auto WorldModel是小米汽车团队提出的自动驾驶世界模型系统,基于WorldRec与WorldGen双模块架构,实现三维场景重建与视频生成统一建模,适用于闭环仿真、数据合成与端到端自动驾驶训练。

  • 模型名称:Xiaomi Auto WorldModel(Joint World Model)
  • 开发公司:Xiaomi Auto WorldModel Team,小米汽车自动驾驶研发团队。
  • 发布时间:2026年5月
  • 核心架构:WorldRec + WorldGen + Joint World Model三层系统结构。
  • 论文来源:Technical Report,基于arXiv公开技术报告体系。
  • 任务类型:世界表示(World Representation)与世界生成(World Generation)。
  • 重建机制:Sparse scene queries驱动的feed-forward 3D Gaussian重建。
  • 生成机制:DiT扩散Transformer + 三阶段训练(TF → ODE distillation → DMD)。
  • 推理效率:WorldGen可实现4步去噪生成,支持0.19s/frame推理速度。
  • 场景长度:支持最长81帧连续驾驶视频生成序列。
  • 应用场景:自动驾驶闭环仿真、数据合成、端到端训练。
  • 开源情况:仅技术报告公开,系统级实现未完全开源。
Xiaomi Auto WorldModel – 小米汽车推出的自动驾驶世界模型系统

Xiaomi Auto WorldModel的核心优势

  • 双任务统一建模:WorldModel将世界表示与世界生成统一为单一系统,通过WorldRec与WorldGen协同优化,实现从3D重建到视频生成的闭环链路。
  • 稀疏查询重建:WorldRec采用sparse scene queries初始化3D空间结构,通过跨视角与跨时间注意力聚合特征,避免传统per-scene优化带来的小时级训练成本。
  • 低步数扩散生成:WorldGen基于DiT架构结合ODE distillation与DMD蒸馏,将传统扩散模型数十至数百步推理压缩至4步生成,用于降低自动驾驶视频生成延迟并提升在线仿真效率。
  • 闭环一致性增强:Joint World Model通过rendered RGB prior与ego-projected conditioning提供几何约束,使生成过程依赖4D场景结构记忆,减少长时序生成中的漂移与幻觉问题。
  • 长序列生成能力:模型支持最长81帧驾驶序列生成,相比传统8–16帧模型具有更强时序扩展能力,用于复杂交通场景模拟与长尾驾驶行为建模。

Xiaomi Auto WorldModel的核心功能

  • 三维场景重建:WorldRec基于multi-view视频输入构建3D Gaussian场景表示,通过sparse query聚合实现10秒视频约10秒重建,用于自动驾驶环境建模与空间理解。
  • 驾驶视频生成:WorldGen基于DiT扩散模型生成连续驾驶视频序列,通过4步去噪推理生成最长81帧场景,用于未来轨迹预测与交通演化模拟。
  • 闭环仿真训练:系统支持从真实驾驶数据生成仿真环境,用于自动驾驶策略训练与行为测试,可模拟复杂交通交互如加塞、行人横穿与极端天气。
  • 数据合成扩展:通过生成式世界模型自动扩展训练数据分布,用于补充长尾场景数据,提高自动驾驶模型在低频事件中的鲁棒性与泛化能力。
  • 多视角一致性建模:JointWM通过多摄像头输入实现跨视角空间一致性建模,保证车辆、道路与环境在不同视角下的结构一致性与几何稳定性。

Xiaomi Auto WorldModel的技术原理

  • WorldRec重建机制:采用sparse scene queries初始化3D空间token,通过visibility-aware attention融合跨视角与跨时间特征,生成compact 3D Gaussian representation,用于替代per-scene优化。
  • WorldGen生成机制:基于Diffusion Transformer架构,采用bidirectional pretraining学习全局时空分布,再通过causal fine-tuning引入时间因果约束,实现视频序列生成能力。
  • 三阶段对齐训练:包括Teacher Forcing、ODE distillation与DMD训练阶段,将高步数扩散模型压缩为低步数推理模型,实现生成加速与分布对齐。
  • 4D场景融合机制:JointWM通过incremental scene fusion持续更新空间表示,使新观测数据与历史4D结构融合,构建连续驾驶场景记忆系统。
  • rendered prior条件控制:通过ego-projected rendered RGB作为生成条件输入,为WorldGen提供部分几何约束,从而提升未观测区域生成一致性。

Xiaomi Auto WorldModel与主流模型对比

维度Xiaomi WorldModelGAIA-1DriveDreamerNVIDIA Cosmos
模型出处Xiaomi Auto WorldModel TeamWayve华中科技大学等团队NVIDIA
核心范式重建+生成统一世界模型生成式驾驶模型驾驶视频扩散模型通用物理世界模型
重建能力Sparse query 3D Gaussian弱或无显式重建部分隐式建模物理驱动建模
生成能力DiT + 4步扩散扩散生成扩散生成高算力生成
闭环仿真完整闭环支持部分支持支持支持
序列长度81帧8–16帧8–16帧可扩展
关键优势4D一致性+低步数生成动作控制能力视频生成能力通用物理模拟

根据公开技术报告与论文测试结果,Xiaomi Auto WorldModel的核心差异在于WorldRec与WorldGen的深度联合建模结构。相比GAIA-1与DriveDreamer主要依赖生成模型进行驾驶场景预测,Xiaomi Auto WorldModel额外引入显式4D空间重建,通过sparse scene queries与incremental scene fusion增强几何一致性。NVIDIA Cosmos则更偏向通用物理世界模拟与机器人训练,在自动驾驶垂直场景中的优化方向不同。据Waymo与nuScenes实验结果显示,Xiaomi Auto WorldModel在长时序稳定性、跨视角一致性与低步数推理效率方面表现更突出,尤其适用于闭环仿真与长尾驾驶数据生成场景。

如何使用Xiaomi Auto WorldModel

  1. 输入数据准备:使用多摄像头驾驶视频作为输入,建议帧率≥30FPS,用于保证跨时间建模稳定性与空间重建精度。
  2. WorldRec重建配置:设置sparse scene queries初始化数量(建议≥1024),用于构建3D Gaussian场景表示并减少重建误差。
  3. WorldGen训练流程:执行bidirectional pretraining后进行causal fine-tuning,并依次应用Teacher Forcing、ODE distillation与DMD压缩推理步骤。
  4. 闭环仿真执行:将模型输出接入自动驾驶仿真环境,用于生成复杂交通场景并验证车辆决策行为。
  5. 推理加速优化:启用4步去噪生成模式并使用GPU加速推理,用于实现0.19s/frame级别的生成性能。

Xiaomi Auto WorldModel的局限性

  • 系统未完全开源:当前仅发布技术报告与论文,完整训练代码与工业系统未开放,限制外部开发者直接复现能力。
  • 算力依赖较高:多视角视频建模与4D重建需要高性能GPU集群支持,在大规模训练场景中资源成本较高。
  • 实时应用受限:尽管采用4步扩散加速,但复杂交通场景生成仍偏离严格实时车端部署需求。

Xiaomi Auto WorldModel相关资源

Xiaomi Auto WorldModel常见问题

Xiaomi Auto WorldModel是什么?

是小米汽车提出的自动驾驶世界模型系统,通过WorldRec与WorldGen统一实现三维重建与视频生成,用于闭环仿真与训练。

Xiaomi Auto WorldModel支持多少帧生成?

WorldGen支持最长81帧驾驶序列生成,用于长时序交通场景模拟与预测任务。

Xiaomi Auto WorldModel如何实现加速?

通过ODE distillation与DMD将扩散生成压缩至4步推理,实现0.19s/frame生成速度。

Xiaomi Auto WorldModel是否开源?

当前仅公开技术报告与论文,完整系统与训练代码未开放。

Xiaomi Auto WorldModel和GAIA-1区别?

GAIA-1以生成式模型为主,而本模型强调重建+生成联合架构,在跨帧一致性方面更强。

Xiaomi Auto WorldModel适用于什么场景?

用于自动驾驶闭环仿真、数据合成扩展与端到端驾驶策略训练。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...