Wall-OSS-0.5 – 自变量机器人推出的视觉语言动作具身模型

AI模型1天前更新 老高
44 0

Wall-OSS-0.5快速摘要

Wall-OSS-0.5是X Square Robot研发的视觉-语言-动作(VLA)模型,基于Qwen2.5-VL-3B骨干扩展至4B参数规模,支持零样本真实机器人执行、跨形态泛化与多任务操作,适用于具身智能、机器人控制与多模态决策场景。

  • 模型名称:Wall-OSS-0.5
  • 开发公司:X Square Robot(自变量机器人)
  • 发布时间:2026年5月
  • 模型规模:4B参数(3B VLM骨干+动作模块扩展)
  • 核心功能:零样本机器人控制、视觉语言理解、连续动作生成
  • 适用场景:真实机器人操作、家庭服务、工业分拣、柔性物体处理
  • 开源情况:开放权重与代码(Wall-X生态)
  • 技术特点:Gradient-Bridge协同训练+MoT混合专家架构+Flow Matching动作生成
  • 性能数据:15任务微调平均60.5%,较π0.5提升17.5个百分点
  • 零样本能力:17任务中4项达到≥80%任务进度
Wall-OSS-0.5– 自变量机器人推出的视觉语言动作具身模型

Wall-OSS-0.5的核心优势

  • 零样本具身执行能力:通过Gradient-Bridge将动作token以交叉熵形式注入VLM主干,使模型在未微调情况下完成17项机器人任务中的4项≥80%进度表现,包含抓取与柔性物体操作,验证预训练即执行能力。
  • 跨形态机器人泛化:覆盖20+机器人形态与100万+轨迹/epoch训练数据,使单一checkpoint可适配双臂与移动平台,在未见硬件结构上仍保持53.6%任务进度表现。
  • 多目标协同提升稳定性:结合动作token CE、多模态CE与Flow Matching三目标训练,使梯度桥在训练早期即可稳定形成,使15任务微调平均达到60.5%表现。
  • 具身理解能力增强:在实体grounding任务上提升21.8个百分点,多模态能力未崩溃而发生结构性迁移,使视觉语言理解与动作控制共享表示空间。
  • 优化收敛效率提升:采用Action-Space监督替代velocity space,使高噪声区域权重提升约2倍,训练收敛速度提升约2×并减少低频轨迹冗余计算。

Wall-OSS-0.5的核心功能

  • 视觉语言动作统一建模:将图像、文本与动作token统一建模为序列输入,输入“将红色方块放入同色盘子”即可输出连续机器人控制轨迹,实现端到端控制生成。
  • Flow Matching动作生成:通过连续流匹配从高斯噪声逐步恢复动作轨迹,输入随机噪声向量生成平滑控制信号,用于真实机器人关节控制输出。
  • 离散动作token预测:将动作压缩为RVQ token序列进行交叉熵训练,使模型可像语言建模一样预测动作序列,增强语义对齐能力与泛化能力。
  • 多模态视觉理解:在90M多模态语料上训练,输入图像+指令可输出操作路径,如“打开抽屉→抓取物体→放入容器”的步骤级推理结果。
  • 机器人多任务控制:支持抓取、排序、插入、整理等结构化任务,输入任务描述与视觉状态,输出连续动作序列控制机械臂执行。

Wall-OSS-0.5的技术原理

  • MoT混合专家架构:采用VL Expert与Action Expert双路径结构,视觉语言token进入VL专家,动作token进入Action专家,通过共享注意力实现梯度跨域传播与统一表示学习。
  • Gradient-Bridge协同训练:将动作token CE作为桥接信号,使动作梯度以语言形式反传至VLM backbone,与Flow Matching形成双路径监督,避免动作与语言能力冲突。
  • 视觉对齐RVQ分词器:使用残差向量量化将动作压缩为多层token,并引入未来帧预测约束,使token同时编码动作轨迹与视觉变化,提高语义一致性。
  • Flow Matching轨迹建模:定义从高斯噪声到真实动作的连续路径,模型学习速度场函数v(x,t),并重点采样高噪声区域以提升轨迹结构学习能力。
  • DMuon优化器机制:通过Newton-Schulz正交化更新矩阵,使Action与VL模块梯度尺度统一,在多源损失异构情况下提升收敛稳定性并减少梯度冲突。

Wall-OSS-0.5与主流模型对比

维度Wall-OSS-0.5π0.5OpenVLA
参数规模4B(Qwen2.5-VL-3B+动作扩展)未公开7B(LLaMA2骨干)
零样本能力17任务中4项≥80%进度需微调后部署需任务微调
微调性能60.5%平均任务进度43.0%约40%~55%
动作生成方式Flow Matching+Token双路径层级token+扩散策略离散token预测
数据规模100万轨迹/epoch+9000万多模态跨机器人数据混合Open X-Embodiment 97万轨迹
架构特点MoT+Gradient-Bridge层级策略模型VLM+动作token

从结构上看,Wall-OSS-0.5的核心差异在于将“动作学习”前置到预训练阶段,而非作为后训练模块。π0.5依赖后训练策略对机器人任务进行适配,而OpenVLA主要通过离散token化动作建模实现基础控制能力。Wall-OSS-0.5通过Gradient-Bridge机制使动作梯度直接作用于VLM backbone,从而在预训练阶段即形成具身控制能力。其优势主要体现在零样本任务执行能力与跨形态泛化能力上,但在极端复杂长程任务上仍存在稳定性差异。整体来看,其贡献在于改变VLA模型“预训练仅作初始化”的传统范式。

如何使用Wall-OSS-0.5

  1. 环境构建:创建Python3.10环境并安装PyTorch与FlashAttention 2.7.4,输入conda create -n wallx python=3.10,输出稳定GPU训练环境,减少推理延迟约20%。
  2. 依赖安装:克隆Wall-X仓库并安装LeRobot依赖,执行pip install -e .,完成机器人数据接口构建,用于加载20+机器人形态数据集。
  3. 模型加载:调用from_pretrained加载4B模型权重,输入视觉与语言token,输出动作logits,实现基础推理流程验证。
  4. 任务微调:使用LeRobot格式数据执行bash run.sh训练,在15任务上可将平均进度从43%提升至60.5%,提升约17.5个百分点。
  5. 真实部署:加载checkpoint到机器人控制器,输入实时视觉帧与指令,输出连续动作控制信号,实现零样本执行抓取与排序任务。

Wall-OSS-0.5相关资源

  • 项目地址https://x2robot.com/oss#resources
  • Github仓库:https://github.com/X-Square-Robot/wall-x
  • HuggingFace官网https://huggingface.co/x-square-robot/wall-oss-0.5
  • 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的局限性

  • 长程任务稳定性不足:在多阶段任务中误差累积较明显,如绳索收紧任务虽达82%但存在轨迹漂移,原因是Flow Matching在低噪声区表达能力有限。
  • 硬件依赖较强:20+机器人形态虽具泛化能力,但不同DOF配置仍需参数适配,导致部署成本上升,目前尚未完全标准化接口。
  • 训练资源消耗较高:100万轨迹/epoch与9000万多模态数据导致训练成本极高,主要依赖分布式训练与DMuon优化器缓解计算压力。

Wall-OSS-0.5的典型应用场景

  • 家庭服务机器人:输入“整理桌面物品”,操作机械臂执行抓取与分类,输出整理后结构化摆放结果,用于家庭自动化清理。
  • 工业分拣系统:输入视觉检测结果与分类指令,控制机械臂完成高速分拣任务,输出标准化物料分类结果,提高产线效率。
  • 柔性物体操作:输入“折叠毛巾或整理绳索”,通过连续动作生成实现柔性控制输出,解决非刚性物体操作难题。
  • 科研机器人实验:输入复杂多步骤任务描述,输出可解释动作序列,用于具身智能与控制策略研究。
  • 多机器人协作系统:输入协同任务指令,输出多机械臂分工动作序列,实现协同搬运与装配任务。

Wall-OSS-0.5常见问题

Wall-OSS-0.5是否支持零样本部署?

支持,根据17任务测试中4项达到80%以上进度表现,说明预训练已具备基础执行能力,适用于部分结构化任务,但复杂任务仍建议微调优化。

Wall-OSS-0.5和π0.5哪个好?

在15任务微调中Wall-OSS-0.5达到60.5%高于π0.5的43.0%,差异源于Gradient-Bridge机制,但π0.5在部分家庭任务稳定性仍有优势。

Wall-OSS-0.5如何计费或使用成本?

模型本身开源免费,但训练成本较高,主要来源于100万轨迹/epoch数据处理与分布式训练资源消耗。

Wall-OSS-0.5支持实时控制吗?

支持有限实时推理,Flow Matching用于连续动作生成,但在高频控制场景存在延迟约束,更适合准实时机器人任务。

Wall-OSS-0.5是否开源?

是,提供模型权重、训练代码与推理脚本,但部分训练细节仍在逐步开放,适合研究与二次开发使用。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...