Xiaomi-Robotics-0快速摘要:实时VLA机器人控制模型与具身智能执行能力
Xiaomi-Robotics-0是小米集团研发的Vision-Language-Action(VLA)机器人控制模型,支持视觉-语言-动作统一建模与实时推理执行,适用于机器人操作、复杂任务规划与具身智能系统部署。
- 模型名称:Xiaomi-Robotics-0(Vision-Language-Action机器人控制模型)
- 开发公司:小米集团(Xiaomi Robotics / AI Lab)
- 发布时间:2026年2月12日(技术报告发布,2026年4月更新Post-training代码)
- 主要功能:VLA统一建模、机器人动作生成、视觉语言理解、实时控制执行(官方定义为real-time execution VLA model)
- 使用要求:需GPU推理环境(推荐PyTorch 2.8 + CUDA 12),支持Hugging Face Transformers部署
- 开源情况:已开源(模型权重、推理代码、评测代码与Post-training pipeline已公开)
- 适用场景:机器人抓取、双臂操作、家庭服务机器人、工业自动化与仿真环境控制
- 技术特点:4.7B参数VLM+DiT架构、Flow Matching动作生成、异步实时执行机制
- 性能数据:LIBERO 98.7%、CALVIN 4.80/4.75、SimplerEnv最高85.5%(据官方benchmark结果)

Xiaomi-Robotics-0的核心优势
- 统一VLA多模态建模能力:模型基于视觉-语言-动作统一架构,将图像、语言指令与机器人状态融合建模,采用Qwen3-VL-4B-Instruct作为VLM编码器生成KV cache,再由DiT进行动作生成,使输入“Pick up red block”可直接输出控制序列,在LIBERO任务中达到98.7%成功率。
- 高精度Flow Matching动作生成:采用Diffusion Transformer(DiT)结合Flow Matching损失生成连续action chunk,相比离散动作策略具备更平滑控制能力,在CALVIN benchmark中平均任务长度达到4.80(ABCD-D split),显著提升长序列任务稳定性。
- 异步实时执行机制:通过Δtc动作前缀与Δtinf推理延迟解耦,实现边执行边推理机制,在机器人执行当前动作chunk时并行生成下一chunk,确保系统持续输出动作流,官方测试表明可实现稳定real-time rollout。
- 跨实体泛化训练能力:预训练使用约200M机器人轨迹与80M视觉语言数据,通过跨embodiment学习增强泛化能力,使模型可适配不同机器人形态,在SimplerEnv中Visual Matching达到85.5%准确率。
- 高效部署与推理优化:支持Hugging Face Transformers生态,结合Flash Attention 2与bfloat16推理优化,在消费级GPU上可运行,模型参数量4.7B,在保持精度同时降低推理延迟至可工程部署级别。
Xiaomi-Robotics-0的核心功能
- 视觉语言指令解析:输入自然语言指令与多视角图像(如base view + wrist view),模型通过VLM编码生成语义KV cache。
- 机器人动作chunk生成:DiT基于Flow Matching生成连续动作序列。
- 多视角环境建模:支持多摄像头输入融合,将base camera与wrist camera特征拼接输入模型,实现空间理解。
- 任务级策略拆解:将高层语言任务拆解为低层动作序列。
- 实时控制反馈系统:通过proprioceptive state输入实时反馈机器人状态,并动态调整下一动作chunk,使系统在失败情况下自动修正抓取策略。
Xiaomi-Robotics-0的技术原理
- VLM+DiT双模块架构:采用Qwen3-VL-4B-Instruct作为视觉语言模型编码器,生成KV cache表示语义信息,再通过Diffusion Transformer(DiT)生成动作序列,实现语言到动作的分层映射结构。
- Flow Matching动作生成机制:使用flow matching损失函数优化连续动作生成,使模型学习从噪声分布到真实动作分布的映射,在机器人控制任务中提升轨迹平滑性与稳定性。
- 跨模态KV缓存机制:VLM输出的KV cache作为DiT条件输入,使动作生成过程依赖视觉与语言联合特征,而非单一模态,提高复杂任务理解能力。
- 异步执行时间解耦设计:通过Δtc > Δtinf设计,使当前动作执行与下一动作推理并行进行,避免等待推理造成的控制中断,实现连续机器人动作流。
- Post-training任务适配机制:采用action prefixing与Λ-shape attention mask,使模型在连续动作chunk之间保持一致性,同时通过随机mask降低动作序列过拟合,提高真实环境适应性。
Xiaomi-Robotics-0与主流模型对比
| 对比维度 | Xiaomi-Robotics-0 | Kairos 3.0-4B | Spirit-v1.5 | UnifoLM-VLA-0 |
|---|---|---|---|---|
| 参数规模 | 4.7B | 4B | 约3B级 | 约4B级 |
| 核心架构 | Qwen3-VL + DiT + Flow Matching | VLA Transformer | 统一动作生成架构 | 多模态VLA架构 |
| 实时推理能力 | 异步执行优化 | 支持实时推理 | 支持低延迟控制 | 支持实时rollout |
| Benchmark表现 | LIBERO 98.7% | 公开结果较少 | 具备公开任务成绩 | 多任务表现较强 |
| 训练数据规模 | 200M轨迹+80M VL | 多实体机器人数据 | 跨任务操作数据 | 大规模动作数据 |
| 开源与部署 | 完整开源+HF部署 | 开放权重 | 研究开源 | 开放部署框架 |
| 典型优势场景 | 双臂精细操作 | 泛化任务执行 | 低延迟控制 | 复杂长任务规划 |
从机器人模型技术路线看,Xiaomi-Robotics-0优势主要来自两部分:一是4.7B参数VLM+DiT结合Flow Matching动作生成,相比传统VLA Transformer在连续动作平滑性与响应稳定性上更强;二是异步执行机制解决了推理延迟问题,这是当前不少VLA模型仍在优化的关键环节。据官方benchmark数据,其LIBERO 98.7%的成功率在公开同级模型中具有较高竞争力。相比Kairos 3.0-4B偏泛化任务能力、Spirit-v1.5偏低延迟控制、UnifoLM-VLA-0偏长任务规划,Xiaomi-Robotics-0更适合精细双臂操作与工程部署导向场景。。
如何使用Xiaomi-Robotics-0
- 环境配置与依赖安装:使用PyTorch 2.8.0 + Transformers 4.57.1配置环境,安装Flash Attention 2.8.3以优化推理性能,例如CUDA 12环境下确保bfloat16支持以降低显存占用。
- 模型加载与初始化:通过Hugging Face加载Xiaomi-Robotics-0-LIBERO权重,例如调用
AutoModel.from_pretrained并启用flash_attention_2实现高效推理。 - 多模态输入构建:输入多视角图像(
base view + wrist view)与语言指令,例如“Pick up red block”,并将proprioceptive state作为机器人状态输入进行融合。 - 动作生成与执行:模型输出action chunk(如机械臂位移+夹爪状态),通过processor.decode_action转换为控制信号并发送至机器人执行系统。
- 异步执行优化:配置
Δtc > Δtinf参数,使机器人在执行当前动作时并行生成下一动作chunk,实现连续控制流优化。
Xiaomi-Robotics-0的局限性
- 真实机器人数据依赖较高:模型依赖约200M robot timesteps数据训练,在真实环境泛化能力仍受数据覆盖范围影响,复杂未见场景可能出现动作偏差。
- 计算资源需求较高:4.7B参数模型在实时推理时仍需GPU支持,消费级设备虽可运行但在高并发任务下可能出现延迟上升问题。
- 真实场景验证有限:虽然在LIBERO与CALVIN中表现优异,但工业级大规模部署验证数据仍有限,官方主要提供仿真与实验室机器人测试结果。
Xiaomi-Robotics-0相关资源
- 项目官网:https://xiaomi-robotics-0.github.io/
- GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
- HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
- 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf
Xiaomi-Robotics-0的典型应用场景
- 家庭服务机器人:输入“整理客厅”指令,系统输出抓取与移动动作序列,实现自动清洁与物品整理,提高家庭自动化效率。
- 工业自动化操作:输入“分拣零件任务”,机器人通过视觉识别与路径规划完成抓取与分类,提高生产线效率。
- 仓储物流机器人:输入货物搬运任务,模型生成路径与抓取动作,实现自动化仓储分拣与搬运流程。
- 双臂机器人操作:输入复杂装配任务如Lego拆解,系统协调双机械臂执行精细操作,提高复杂装配能力。
- 科研与仿真训练:在CALVIN等仿真环境中训练多步骤任务策略,用于具身智能算法研究与验证。
Xiaomi-Robotics-0常见问题
Xiaomi-Robotics-0怎么用?
通过Hugging Face加载预训练权重并配置Transformers环境使用,输入多视角图像与语言指令后生成机器人动作chunk执行,适用于机器人控制开发与仿真实验场景。
Xiaomi-Robotics-0如何计费?
目前模型已开源,使用本身不涉及API计费,但运行成本来自GPU算力消耗,部署在消费级显卡或服务器上均需自行承担计算资源成本。
Xiaomi-Robotics-0和Kairos 3.0-4B哪个好?
据公开benchmark数据,Xiaomi-Robotics-0在LIBERO达到98.7%成功率,并具备异步实时执行优势,更适合精细机器人操作;Kairos 3.0-4B偏泛化任务执行,两者定位不同。
Xiaomi-Robotics-0支持实时控制吗?
支持异步实时执行机制,通过Δtc与Δtinf设计实现边执行边推理,保证动作连续输出,适用于机器人实时控制任务但依赖硬件性能。
Xiaomi-Robotics-0有免费使用方式吗?
模型已开源,可通过Hugging Face或GitHub免费获取代码与权重,但实际运行需要GPU资源,因此成本取决于本地或云端算力使用情况。
浙公网安备33010202004812号