Xiaomi Auto WorldModel – 小米汽车推出的自动驾驶世界模型系统

AI模型2个月前更新老高

421 0 1

Xiaomi Auto WorldModel快速摘要

Xiaomi Auto WorldModel是小米汽车团队提出的自动驾驶世界模型系统，基于WorldRec与WorldGen双模块架构，实现三维场景重建与视频生成统一建模，适用于闭环仿真、数据合成与端到端自动驾驶训练。

模型名称：Xiaomi Auto WorldModel（Joint World Model）
开发公司：Xiaomi Auto WorldModel Team，小米汽车自动驾驶研发团队。
发布时间：2026年5月
核心架构：WorldRec + WorldGen + Joint World Model三层系统结构。
论文来源：Technical Report，基于arXiv公开技术报告体系。
任务类型：世界表示（World Representation）与世界生成（World Generation）。
重建机制：Sparse scene queries驱动的feed-forward 3D Gaussian重建。
生成机制：DiT扩散Transformer + 三阶段训练（TF → ODE distillation → DMD）。
推理效率：WorldGen可实现4步去噪生成，支持0.19s/frame推理速度。
场景长度：支持最长81帧连续驾驶视频生成序列。
应用场景：自动驾驶闭环仿真、数据合成、端到端训练。
开源情况：仅技术报告公开，系统级实现未完全开源。

Xiaomi Auto WorldModel – 小米汽车推出的自动驾驶世界模型系统

Xiaomi Auto WorldModel的核心优势

双任务统一建模：WorldModel将世界表示与世界生成统一为单一系统，通过WorldRec与WorldGen协同优化，实现从3D重建到视频生成的闭环链路。
稀疏查询重建：WorldRec采用sparse scene queries初始化3D空间结构，通过跨视角与跨时间注意力聚合特征，避免传统per-scene优化带来的小时级训练成本。
低步数扩散生成：WorldGen基于DiT架构结合ODE distillation与DMD蒸馏，将传统扩散模型数十至数百步推理压缩至4步生成，用于降低自动驾驶视频生成延迟并提升在线仿真效率。
闭环一致性增强：Joint World Model通过rendered RGB prior与ego-projected conditioning提供几何约束，使生成过程依赖4D场景结构记忆，减少长时序生成中的漂移与幻觉问题。
长序列生成能力：模型支持最长81帧驾驶序列生成，相比传统8–16帧模型具有更强时序扩展能力，用于复杂交通场景模拟与长尾驾驶行为建模。

Xiaomi Auto WorldModel的核心功能

三维场景重建：WorldRec基于multi-view视频输入构建3D Gaussian场景表示，通过sparse query聚合实现10秒视频约10秒重建，用于自动驾驶环境建模与空间理解。
驾驶视频生成：WorldGen基于DiT扩散模型生成连续驾驶视频序列，通过4步去噪推理生成最长81帧场景，用于未来轨迹预测与交通演化模拟。
闭环仿真训练：系统支持从真实驾驶数据生成仿真环境，用于自动驾驶策略训练与行为测试，可模拟复杂交通交互如加塞、行人横穿与极端天气。
数据合成扩展：通过生成式世界模型自动扩展训练数据分布，用于补充长尾场景数据，提高自动驾驶模型在低频事件中的鲁棒性与泛化能力。
多视角一致性建模：JointWM通过多摄像头输入实现跨视角空间一致性建模，保证车辆、道路与环境在不同视角下的结构一致性与几何稳定性。

Xiaomi Auto WorldModel的技术原理

WorldRec重建机制：采用sparse scene queries初始化3D空间token，通过visibility-aware attention融合跨视角与跨时间特征，生成compact 3D Gaussian representation，用于替代per-scene优化。
WorldGen生成机制：基于Diffusion Transformer架构，采用bidirectional pretraining学习全局时空分布，再通过causal fine-tuning引入时间因果约束，实现视频序列生成能力。
三阶段对齐训练：包括Teacher Forcing、ODE distillation与DMD训练阶段，将高步数扩散模型压缩为低步数推理模型，实现生成加速与分布对齐。
4D场景融合机制：JointWM通过incremental scene fusion持续更新空间表示，使新观测数据与历史4D结构融合，构建连续驾驶场景记忆系统。
rendered prior条件控制：通过ego-projected rendered RGB作为生成条件输入，为WorldGen提供部分几何约束，从而提升未观测区域生成一致性。

Xiaomi Auto WorldModel与主流模型对比

维度	Xiaomi WorldModel	GAIA-1	DriveDreamer	NVIDIA Cosmos
模型出处	Xiaomi Auto WorldModel Team	Wayve	华中科技大学等团队	NVIDIA
核心范式	重建+生成统一世界模型	生成式驾驶模型	驾驶视频扩散模型	通用物理世界模型
重建能力	Sparse query 3D Gaussian	弱或无显式重建	部分隐式建模	物理驱动建模
生成能力	DiT + 4步扩散	扩散生成	扩散生成	高算力生成
闭环仿真	完整闭环支持	部分支持	支持	支持
序列长度	81帧	8–16帧	8–16帧	可扩展
关键优势	4D一致性+低步数生成	动作控制能力	视频生成能力	通用物理模拟

根据公开技术报告与论文测试结果，Xiaomi Auto WorldModel的核心差异在于WorldRec与WorldGen的深度联合建模结构。相比GAIA-1与DriveDreamer主要依赖生成模型进行驾驶场景预测，Xiaomi Auto WorldModel额外引入显式4D空间重建，通过sparse scene queries与incremental scene fusion增强几何一致性。NVIDIA Cosmos则更偏向通用物理世界模拟与机器人训练，在自动驾驶垂直场景中的优化方向不同。据Waymo与nuScenes实验结果显示，Xiaomi Auto WorldModel在长时序稳定性、跨视角一致性与低步数推理效率方面表现更突出，尤其适用于闭环仿真与长尾驾驶数据生成场景。

如何使用Xiaomi Auto WorldModel

输入数据准备：使用多摄像头驾驶视频作为输入，建议帧率≥30FPS，用于保证跨时间建模稳定性与空间重建精度。
WorldRec重建配置：设置sparse scene queries初始化数量（建议≥1024），用于构建3D Gaussian场景表示并减少重建误差。
WorldGen训练流程：执行bidirectional pretraining后进行causal fine-tuning，并依次应用Teacher Forcing、ODE distillation与DMD压缩推理步骤。
闭环仿真执行：将模型输出接入自动驾驶仿真环境，用于生成复杂交通场景并验证车辆决策行为。
推理加速优化：启用4步去噪生成模式并使用GPU加速推理，用于实现0.19s/frame级别的生成性能。

Xiaomi Auto WorldModel的局限性

系统未完全开源：当前仅发布技术报告与论文，完整训练代码与工业系统未开放，限制外部开发者直接复现能力。
算力依赖较高：多视角视频建模与4D重建需要高性能GPU集群支持，在大规模训练场景中资源成本较高。
实时应用受限：尽管采用4步扩散加速，但复杂交通场景生成仍偏离严格实时车端部署需求。

Xiaomi Auto WorldModel相关资源

项目官网：https://JointWM.github.io/
arXiv技术论文：https://arxiv.org/pdf/2605.18137

Xiaomi Auto WorldModel常见问题

Xiaomi Auto WorldModel是什么？

是小米汽车提出的自动驾驶世界模型系统，通过WorldRec与WorldGen统一实现三维重建与视频生成，用于闭环仿真与训练。

Xiaomi Auto WorldModel支持多少帧生成？

WorldGen支持最长81帧驾驶序列生成，用于长时序交通场景模拟与预测任务。

Xiaomi Auto WorldModel如何实现加速？

通过ODE distillation与DMD将扩散生成压缩至4步推理，实现0.19s/frame生成速度。

Xiaomi Auto WorldModel是否开源？

当前仅公开技术报告与论文，完整系统与训练代码未开放。

Xiaomi Auto WorldModel和GAIA-1区别？

GAIA-1以生成式模型为主，而本模型强调重建+生成联合架构，在跨帧一致性方面更强。

Xiaomi Auto WorldModel适用于什么场景？

用于自动驾驶闭环仿真、数据合成扩展与端到端驾驶策略训练。

# AI模型 # 自动驾驶世界模型

本站文章版权归AI工具箱所有，未经允许禁止任何形式的转载。

Claude Sonnet 4.6 – Anthropic推出的最新高性能智能体模型

老高

1,829 1

Qwen3.5-Max-Preview – 阿里通义推出的高性能多模态大语言模型与推理平台

老高

631 0

Step Image Edit 2 – 阶跃星辰推出的轻量级图像生成编辑模型

老高

508 1

PhoneBuddy – 腾讯混元推出的开源手机智能体训练框架

老高

173 1

Gemini 3.1 Flash Live – Google推出的多模态大语言模型实时推理平台

老高

572 1

SenseNova 6.7 Flash-Lite – 商汤推出的多模态办公智能体模型

老高

783 1

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...