Wall-OSS-0.5快速摘要
Wall-OSS-0.5是X Square Robot研发的视觉-语言-动作(VLA)模型,基于Qwen2.5-VL-3B骨干扩展至4B参数规模,支持零样本真实机器人执行、跨形态泛化与多任务操作,适用于具身智能、机器人控制与多模态决策场景。
- 模型名称:Wall-OSS-0.5
- 开发公司:X Square Robot(自变量机器人)
- 发布时间:2026年5月
- 模型规模:4B参数(3B VLM骨干+动作模块扩展)
- 核心功能:零样本机器人控制、视觉语言理解、连续动作生成
- 适用场景:真实机器人操作、家庭服务、工业分拣、柔性物体处理
- 开源情况:开放权重与代码(Wall-X生态)
- 技术特点:Gradient-Bridge协同训练+MoT混合专家架构+Flow Matching动作生成
- 性能数据:15任务微调平均60.5%,较π0.5提升17.5个百分点
- 零样本能力:17任务中4项达到≥80%任务进度

Wall-OSS-0.5的核心优势
- 零样本具身执行能力:通过Gradient-Bridge将动作token以交叉熵形式注入VLM主干,使模型在未微调情况下完成17项机器人任务中的4项≥80%进度表现,包含抓取与柔性物体操作,验证预训练即执行能力。
- 跨形态机器人泛化:覆盖20+机器人形态与100万+轨迹/epoch训练数据,使单一checkpoint可适配双臂与移动平台,在未见硬件结构上仍保持53.6%任务进度表现。
- 多目标协同提升稳定性:结合动作token CE、多模态CE与Flow Matching三目标训练,使梯度桥在训练早期即可稳定形成,使15任务微调平均达到60.5%表现。
- 具身理解能力增强:在实体grounding任务上提升21.8个百分点,多模态能力未崩溃而发生结构性迁移,使视觉语言理解与动作控制共享表示空间。
- 优化收敛效率提升:采用Action-Space监督替代velocity space,使高噪声区域权重提升约2倍,训练收敛速度提升约2×并减少低频轨迹冗余计算。
Wall-OSS-0.5的核心功能
- 视觉语言动作统一建模:将图像、文本与动作token统一建模为序列输入,输入“将红色方块放入同色盘子”即可输出连续机器人控制轨迹,实现端到端控制生成。
- Flow Matching动作生成:通过连续流匹配从高斯噪声逐步恢复动作轨迹,输入随机噪声向量生成平滑控制信号,用于真实机器人关节控制输出。
- 离散动作token预测:将动作压缩为RVQ token序列进行交叉熵训练,使模型可像语言建模一样预测动作序列,增强语义对齐能力与泛化能力。
- 多模态视觉理解:在90M多模态语料上训练,输入图像+指令可输出操作路径,如“打开抽屉→抓取物体→放入容器”的步骤级推理结果。
- 机器人多任务控制:支持抓取、排序、插入、整理等结构化任务,输入任务描述与视觉状态,输出连续动作序列控制机械臂执行。
Wall-OSS-0.5的技术原理
- MoT混合专家架构:采用VL Expert与Action Expert双路径结构,视觉语言token进入VL专家,动作token进入Action专家,通过共享注意力实现梯度跨域传播与统一表示学习。
- Gradient-Bridge协同训练:将动作token CE作为桥接信号,使动作梯度以语言形式反传至VLM backbone,与Flow Matching形成双路径监督,避免动作与语言能力冲突。
- 视觉对齐RVQ分词器:使用残差向量量化将动作压缩为多层token,并引入未来帧预测约束,使token同时编码动作轨迹与视觉变化,提高语义一致性。
- Flow Matching轨迹建模:定义从高斯噪声到真实动作的连续路径,模型学习速度场函数v(x,t),并重点采样高噪声区域以提升轨迹结构学习能力。
- DMuon优化器机制:通过Newton-Schulz正交化更新矩阵,使Action与VL模块梯度尺度统一,在多源损失异构情况下提升收敛稳定性并减少梯度冲突。
Wall-OSS-0.5与主流模型对比
| 维度 | Wall-OSS-0.5 | π0.5 | OpenVLA |
|---|---|---|---|
| 参数规模 | 4B(Qwen2.5-VL-3B+动作扩展) | 未公开 | 7B(LLaMA2骨干) |
| 零样本能力 | 17任务中4项≥80%进度 | 需微调后部署 | 需任务微调 |
| 微调性能 | 60.5%平均任务进度 | 43.0% | 约40%~55% |
| 动作生成方式 | Flow Matching+Token双路径 | 层级token+扩散策略 | 离散token预测 |
| 数据规模 | 100万轨迹/epoch+9000万多模态 | 跨机器人数据混合 | Open X-Embodiment 97万轨迹 |
| 架构特点 | MoT+Gradient-Bridge | 层级策略模型 | VLM+动作token |
从结构上看,Wall-OSS-0.5的核心差异在于将“动作学习”前置到预训练阶段,而非作为后训练模块。π0.5依赖后训练策略对机器人任务进行适配,而OpenVLA主要通过离散token化动作建模实现基础控制能力。Wall-OSS-0.5通过Gradient-Bridge机制使动作梯度直接作用于VLM backbone,从而在预训练阶段即形成具身控制能力。其优势主要体现在零样本任务执行能力与跨形态泛化能力上,但在极端复杂长程任务上仍存在稳定性差异。整体来看,其贡献在于改变VLA模型“预训练仅作初始化”的传统范式。
如何使用Wall-OSS-0.5
- 环境构建:创建Python3.10环境并安装PyTorch与FlashAttention 2.7.4,输入
conda create -n wallx python=3.10,输出稳定GPU训练环境,减少推理延迟约20%。 - 依赖安装:克隆Wall-X仓库并安装LeRobot依赖,执行
pip install -e .,完成机器人数据接口构建,用于加载20+机器人形态数据集。 - 模型加载:调用from_pretrained加载4B模型权重,输入视觉与语言token,输出动作logits,实现基础推理流程验证。
- 任务微调:使用LeRobot格式数据执行
bash run.sh训练,在15任务上可将平均进度从43%提升至60.5%,提升约17.5个百分点。 - 真实部署:加载checkpoint到机器人控制器,输入实时视觉帧与指令,输出连续动作控制信号,实现零样本执行抓取与排序任务。
Wall-OSS-0.5相关资源
- 项目地址:https://x2robot.com/oss#resources
- Github仓库:https://github.com/X-Square-Robot/wall-x
- HuggingFace官网https://huggingface.co/x-square-robot/wall-oss-0.5
- 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf
Wall-OSS-0.5的局限性
- 长程任务稳定性不足:在多阶段任务中误差累积较明显,如绳索收紧任务虽达82%但存在轨迹漂移,原因是Flow Matching在低噪声区表达能力有限。
- 硬件依赖较强:20+机器人形态虽具泛化能力,但不同DOF配置仍需参数适配,导致部署成本上升,目前尚未完全标准化接口。
- 训练资源消耗较高:100万轨迹/epoch与9000万多模态数据导致训练成本极高,主要依赖分布式训练与DMuon优化器缓解计算压力。
Wall-OSS-0.5的典型应用场景
- 家庭服务机器人:输入“整理桌面物品”,操作机械臂执行抓取与分类,输出整理后结构化摆放结果,用于家庭自动化清理。
- 工业分拣系统:输入视觉检测结果与分类指令,控制机械臂完成高速分拣任务,输出标准化物料分类结果,提高产线效率。
- 柔性物体操作:输入“折叠毛巾或整理绳索”,通过连续动作生成实现柔性控制输出,解决非刚性物体操作难题。
- 科研机器人实验:输入复杂多步骤任务描述,输出可解释动作序列,用于具身智能与控制策略研究。
- 多机器人协作系统:输入协同任务指令,输出多机械臂分工动作序列,实现协同搬运与装配任务。
Wall-OSS-0.5常见问题
Wall-OSS-0.5是否支持零样本部署?
支持,根据17任务测试中4项达到80%以上进度表现,说明预训练已具备基础执行能力,适用于部分结构化任务,但复杂任务仍建议微调优化。
Wall-OSS-0.5和π0.5哪个好?
在15任务微调中Wall-OSS-0.5达到60.5%高于π0.5的43.0%,差异源于Gradient-Bridge机制,但π0.5在部分家庭任务稳定性仍有优势。
Wall-OSS-0.5如何计费或使用成本?
模型本身开源免费,但训练成本较高,主要来源于100万轨迹/epoch数据处理与分布式训练资源消耗。
Wall-OSS-0.5支持实时控制吗?
支持有限实时推理,Flow Matching用于连续动作生成,但在高频控制场景存在延迟约束,更适合准实时机器人任务。
Wall-OSS-0.5是否开源?
是,提供模型权重、训练代码与推理脚本,但部分训练细节仍在逐步开放,适合研究与二次开发使用。
© 版权声明
本站文章版权归AI工具箱所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...
浙公网安备33010202004812号