Xiaomi-Robotics-0 – 小米开源的实时视觉语言动作机器人模型

AI模型2天前更新 老高
56 0

Xiaomi-Robotics-0快速摘要:实时VLA机器人控制模型与具身智能执行能力

Xiaomi-Robotics-0是小米集团研发的Vision-Language-Action(VLA)机器人控制模型,支持视觉-语言-动作统一建模与实时推理执行,适用于机器人操作、复杂任务规划与具身智能系统部署。

  • 模型名称:Xiaomi-Robotics-0(Vision-Language-Action机器人控制模型)
  • 开发公司:小米集团(Xiaomi Robotics / AI Lab)
  • 发布时间:2026年2月12日(技术报告发布,2026年4月更新Post-training代码)
  • 主要功能:VLA统一建模、机器人动作生成、视觉语言理解、实时控制执行(官方定义为real-time execution VLA model)
  • 使用要求:需GPU推理环境(推荐PyTorch 2.8 + CUDA 12),支持Hugging Face Transformers部署
  • 开源情况:已开源(模型权重、推理代码、评测代码与Post-training pipeline已公开)
  • 适用场景:机器人抓取、双臂操作、家庭服务机器人、工业自动化与仿真环境控制
  • 技术特点:4.7B参数VLM+DiT架构、Flow Matching动作生成、异步实时执行机制
  • 性能数据:LIBERO 98.7%、CALVIN 4.80/4.75、SimplerEnv最高85.5%(据官方benchmark结果)
Xiaomi-Robotics-0 – 小米开源的实时视觉语言动作机器人模型

Xiaomi-Robotics-0的核心优势

  • 统一VLA多模态建模能力:模型基于视觉-语言-动作统一架构,将图像、语言指令与机器人状态融合建模,采用Qwen3-VL-4B-Instruct作为VLM编码器生成KV cache,再由DiT进行动作生成,使输入“Pick up red block”可直接输出控制序列,在LIBERO任务中达到98.7%成功率。
  • 高精度Flow Matching动作生成:采用Diffusion Transformer(DiT)结合Flow Matching损失生成连续action chunk,相比离散动作策略具备更平滑控制能力,在CALVIN benchmark中平均任务长度达到4.80(ABCD-D split),显著提升长序列任务稳定性。
  • 异步实时执行机制:通过Δtc动作前缀与Δtinf推理延迟解耦,实现边执行边推理机制,在机器人执行当前动作chunk时并行生成下一chunk,确保系统持续输出动作流,官方测试表明可实现稳定real-time rollout。
  • 跨实体泛化训练能力:预训练使用约200M机器人轨迹与80M视觉语言数据,通过跨embodiment学习增强泛化能力,使模型可适配不同机器人形态,在SimplerEnv中Visual Matching达到85.5%准确率。
  • 高效部署与推理优化:支持Hugging Face Transformers生态,结合Flash Attention 2与bfloat16推理优化,在消费级GPU上可运行,模型参数量4.7B,在保持精度同时降低推理延迟至可工程部署级别。

Xiaomi-Robotics-0的核心功能

  • 视觉语言指令解析:输入自然语言指令与多视角图像(如base view + wrist view),模型通过VLM编码生成语义KV cache。
  • 机器人动作chunk生成:DiT基于Flow Matching生成连续动作序列。
  • 多视角环境建模:支持多摄像头输入融合,将base camera与wrist camera特征拼接输入模型,实现空间理解。
  • 任务级策略拆解:将高层语言任务拆解为低层动作序列。
  • 实时控制反馈系统:通过proprioceptive state输入实时反馈机器人状态,并动态调整下一动作chunk,使系统在失败情况下自动修正抓取策略。

Xiaomi-Robotics-0的技术原理

  • VLM+DiT双模块架构:采用Qwen3-VL-4B-Instruct作为视觉语言模型编码器,生成KV cache表示语义信息,再通过Diffusion Transformer(DiT)生成动作序列,实现语言到动作的分层映射结构。
  • Flow Matching动作生成机制:使用flow matching损失函数优化连续动作生成,使模型学习从噪声分布到真实动作分布的映射,在机器人控制任务中提升轨迹平滑性与稳定性。
  • 跨模态KV缓存机制:VLM输出的KV cache作为DiT条件输入,使动作生成过程依赖视觉与语言联合特征,而非单一模态,提高复杂任务理解能力。
  • 异步执行时间解耦设计:通过Δtc > Δtinf设计,使当前动作执行与下一动作推理并行进行,避免等待推理造成的控制中断,实现连续机器人动作流。
  • Post-training任务适配机制:采用action prefixing与Λ-shape attention mask,使模型在连续动作chunk之间保持一致性,同时通过随机mask降低动作序列过拟合,提高真实环境适应性。

Xiaomi-Robotics-0与主流模型对比

对比维度Xiaomi-Robotics-0Kairos 3.0-4BSpirit-v1.5UnifoLM-VLA-0
参数规模4.7B4B约3B级约4B级
核心架构Qwen3-VL + DiT + Flow MatchingVLA Transformer统一动作生成架构多模态VLA架构
实时推理能力异步执行优化支持实时推理支持低延迟控制支持实时rollout
Benchmark表现LIBERO 98.7%公开结果较少具备公开任务成绩多任务表现较强
训练数据规模200M轨迹+80M VL多实体机器人数据跨任务操作数据大规模动作数据
开源与部署完整开源+HF部署开放权重研究开源开放部署框架
典型优势场景双臂精细操作泛化任务执行低延迟控制复杂长任务规划

从机器人模型技术路线看,Xiaomi-Robotics-0优势主要来自两部分:一是4.7B参数VLM+DiT结合Flow Matching动作生成,相比传统VLA Transformer在连续动作平滑性与响应稳定性上更强;二是异步执行机制解决了推理延迟问题,这是当前不少VLA模型仍在优化的关键环节。据官方benchmark数据,其LIBERO 98.7%的成功率在公开同级模型中具有较高竞争力。相比Kairos 3.0-4B偏泛化任务能力、Spirit-v1.5偏低延迟控制、UnifoLM-VLA-0偏长任务规划,Xiaomi-Robotics-0更适合精细双臂操作与工程部署导向场景。。

如何使用Xiaomi-Robotics-0

  1. 环境配置与依赖安装:使用PyTorch 2.8.0 + Transformers 4.57.1配置环境,安装Flash Attention 2.8.3以优化推理性能,例如CUDA 12环境下确保bfloat16支持以降低显存占用。
  2. 模型加载与初始化:通过Hugging Face加载Xiaomi-Robotics-0-LIBERO权重,例如调用AutoModel.from_pretrained并启用flash_attention_2实现高效推理。
  3. 多模态输入构建:输入多视角图像(base view + wrist view)与语言指令,例如“Pick up red block”,并将proprioceptive state作为机器人状态输入进行融合。
  4. 动作生成与执行:模型输出action chunk(如机械臂位移+夹爪状态),通过processor.decode_action转换为控制信号并发送至机器人执行系统。
  5. 异步执行优化:配置Δtc > Δtinf参数,使机器人在执行当前动作时并行生成下一动作chunk,实现连续控制流优化。

Xiaomi-Robotics-0的局限性

  • 真实机器人数据依赖较高:模型依赖约200M robot timesteps数据训练,在真实环境泛化能力仍受数据覆盖范围影响,复杂未见场景可能出现动作偏差。
  • 计算资源需求较高:4.7B参数模型在实时推理时仍需GPU支持,消费级设备虽可运行但在高并发任务下可能出现延迟上升问题。
  • 真实场景验证有限:虽然在LIBERO与CALVIN中表现优异,但工业级大规模部署验证数据仍有限,官方主要提供仿真与实验室机器人测试结果。

Xiaomi-Robotics-0相关资源

  • 项目官网https://xiaomi-robotics-0.github.io/
  • GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
  • 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的典型应用场景

  • 家庭服务机器人:输入“整理客厅”指令,系统输出抓取与移动动作序列,实现自动清洁与物品整理,提高家庭自动化效率。
  • 工业自动化操作:输入“分拣零件任务”,机器人通过视觉识别与路径规划完成抓取与分类,提高生产线效率。
  • 仓储物流机器人:输入货物搬运任务,模型生成路径与抓取动作,实现自动化仓储分拣与搬运流程。
  • 双臂机器人操作:输入复杂装配任务如Lego拆解,系统协调双机械臂执行精细操作,提高复杂装配能力。
  • 科研与仿真训练:在CALVIN等仿真环境中训练多步骤任务策略,用于具身智能算法研究与验证。

Xiaomi-Robotics-0常见问题

Xiaomi-Robotics-0怎么用?

通过Hugging Face加载预训练权重并配置Transformers环境使用,输入多视角图像与语言指令后生成机器人动作chunk执行,适用于机器人控制开发与仿真实验场景。

Xiaomi-Robotics-0如何计费?

目前模型已开源,使用本身不涉及API计费,但运行成本来自GPU算力消耗,部署在消费级显卡或服务器上均需自行承担计算资源成本。

Xiaomi-Robotics-0和Kairos 3.0-4B哪个好?

据公开benchmark数据,Xiaomi-Robotics-0在LIBERO达到98.7%成功率,并具备异步实时执行优势,更适合精细机器人操作;Kairos 3.0-4B偏泛化任务执行,两者定位不同。

Xiaomi-Robotics-0支持实时控制吗?

支持异步实时执行机制,通过Δtc与Δtinf设计实现边执行边推理,保证动作连续输出,适用于机器人实时控制任务但依赖硬件性能。

Xiaomi-Robotics-0有免费使用方式吗?

模型已开源,可通过Hugging Face或GitHub免费获取代码与权重,但实际运行需要GPU资源,因此成本取决于本地或云端算力使用情况。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...