Wall-OSS-0.5 – 自变量机器人推出的视觉语言动作具身模型

360 0 2

Wall-OSS-0.5快速摘要

Wall-OSS-0.5是X Square Robot研发的视觉-语言-动作（VLA）模型，基于Qwen2.5-VL-3B骨干扩展至4B参数规模，支持零样本真实机器人执行、跨形态泛化与多任务操作，适用于具身智能、机器人控制与多模态决策场景。

模型名称：Wall-OSS-0.5
开发公司：X Square Robot（自变量机器人）
发布时间：2026年5月
模型规模：4B参数（3B VLM骨干+动作模块扩展）
核心功能：零样本机器人控制、视觉语言理解、连续动作生成
适用场景：真实机器人操作、家庭服务、工业分拣、柔性物体处理
开源情况：开放权重与代码（Wall-X生态）
技术特点：Gradient-Bridge协同训练+MoT混合专家架构+Flow Matching动作生成
性能数据：15任务微调平均60.5%，较π0.5提升17.5个百分点
零样本能力：17任务中4项达到≥80%任务进度

Wall-OSS-0.5的核心优势

零样本具身执行能力：通过Gradient-Bridge将动作token以交叉熵形式注入VLM主干，使模型在未微调情况下完成17项机器人任务中的4项≥80%进度表现，包含抓取与柔性物体操作，验证预训练即执行能力。
跨形态机器人泛化：覆盖20+机器人形态与100万+轨迹/epoch训练数据，使单一checkpoint可适配双臂与移动平台，在未见硬件结构上仍保持53.6%任务进度表现。
多目标协同提升稳定性：结合动作token CE、多模态CE与Flow Matching三目标训练，使梯度桥在训练早期即可稳定形成，使15任务微调平均达到60.5%表现。
具身理解能力增强：在实体grounding任务上提升21.8个百分点，多模态能力未崩溃而发生结构性迁移，使视觉语言理解与动作控制共享表示空间。
优化收敛效率提升：采用Action-Space监督替代velocity space，使高噪声区域权重提升约2倍，训练收敛速度提升约2×并减少低频轨迹冗余计算。

Wall-OSS-0.5的核心功能

视觉语言动作统一建模：将图像、文本与动作token统一建模为序列输入，输入“将红色方块放入同色盘子”即可输出连续机器人控制轨迹，实现端到端控制生成。
Flow Matching动作生成：通过连续流匹配从高斯噪声逐步恢复动作轨迹，输入随机噪声向量生成平滑控制信号，用于真实机器人关节控制输出。
离散动作token预测：将动作压缩为RVQ token序列进行交叉熵训练，使模型可像语言建模一样预测动作序列，增强语义对齐能力与泛化能力。
多模态视觉理解：在90M多模态语料上训练，输入图像+指令可输出操作路径，如“打开抽屉→抓取物体→放入容器”的步骤级推理结果。
机器人多任务控制：支持抓取、排序、插入、整理等结构化任务，输入任务描述与视觉状态，输出连续动作序列控制机械臂执行。

Wall-OSS-0.5的技术原理

MoT混合专家架构：采用VL Expert与Action Expert双路径结构，视觉语言token进入VL专家，动作token进入Action专家，通过共享注意力实现梯度跨域传播与统一表示学习。
Gradient-Bridge协同训练：将动作token CE作为桥接信号，使动作梯度以语言形式反传至VLM backbone，与Flow Matching形成双路径监督，避免动作与语言能力冲突。
视觉对齐RVQ分词器：使用残差向量量化将动作压缩为多层token，并引入未来帧预测约束，使token同时编码动作轨迹与视觉变化，提高语义一致性。
Flow Matching轨迹建模：定义从高斯噪声到真实动作的连续路径，模型学习速度场函数v(x,t)，并重点采样高噪声区域以提升轨迹结构学习能力。
DMuon优化器机制：通过Newton-Schulz正交化更新矩阵，使Action与VL模块梯度尺度统一，在多源损失异构情况下提升收敛稳定性并减少梯度冲突。

Wall-OSS-0.5与主流模型对比

维度	Wall-OSS-0.5	π0.5	OpenVLA
参数规模	4B（Qwen2.5-VL-3B+动作扩展）	未公开	7B（LLaMA2骨干）
零样本能力	17任务中4项≥80%进度	需微调后部署	需任务微调
微调性能	60.5%平均任务进度	43.0%	约40%~55%
动作生成方式	Flow Matching+Token双路径	层级token+扩散策略	离散token预测
数据规模	100万轨迹/epoch+9000万多模态	跨机器人数据混合	Open X-Embodiment 97万轨迹
架构特点	MoT+Gradient-Bridge	层级策略模型	VLM+动作token

从结构上看，Wall-OSS-0.5的核心差异在于将“动作学习”前置到预训练阶段，而非作为后训练模块。π0.5依赖后训练策略对机器人任务进行适配，而OpenVLA主要通过离散token化动作建模实现基础控制能力。Wall-OSS-0.5通过Gradient-Bridge机制使动作梯度直接作用于VLM backbone，从而在预训练阶段即形成具身控制能力。其优势主要体现在零样本任务执行能力与跨形态泛化能力上，但在极端复杂长程任务上仍存在稳定性差异。整体来看，其贡献在于改变VLA模型“预训练仅作初始化”的传统范式。

如何使用Wall-OSS-0.5

环境构建：创建Python3.10环境并安装PyTorch与FlashAttention 2.7.4，输入conda create -n wallx python=3.10，输出稳定GPU训练环境，减少推理延迟约20%。
依赖安装：克隆Wall-X仓库并安装LeRobot依赖，执行pip install -e .，完成机器人数据接口构建，用于加载20+机器人形态数据集。
模型加载：调用from_pretrained加载4B模型权重，输入视觉与语言token，输出动作logits，实现基础推理流程验证。
任务微调：使用LeRobot格式数据执行bash run.sh训练，在15任务上可将平均进度从43%提升至60.5%，提升约17.5个百分点。
真实部署：加载checkpoint到机器人控制器，输入实时视觉帧与指令，输出连续动作控制信号，实现零样本执行抓取与排序任务。

Wall-OSS-0.5相关资源

项目地址：https://x2robot.com/oss#resources
Github仓库：https://github.com/X-Square-Robot/wall-x
HuggingFace官网https://huggingface.co/x-square-robot/wall-oss-0.5
论文地址：https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的局限性

长程任务稳定性不足：在多阶段任务中误差累积较明显，如绳索收紧任务虽达82%但存在轨迹漂移，原因是Flow Matching在低噪声区表达能力有限。
硬件依赖较强：20+机器人形态虽具泛化能力，但不同DOF配置仍需参数适配，导致部署成本上升，目前尚未完全标准化接口。
训练资源消耗较高：100万轨迹/epoch与9000万多模态数据导致训练成本极高，主要依赖分布式训练与DMuon优化器缓解计算压力。

Wall-OSS-0.5的典型应用场景

家庭服务机器人：输入“整理桌面物品”，操作机械臂执行抓取与分类，输出整理后结构化摆放结果，用于家庭自动化清理。
工业分拣系统：输入视觉检测结果与分类指令，控制机械臂完成高速分拣任务，输出标准化物料分类结果，提高产线效率。
柔性物体操作：输入“折叠毛巾或整理绳索”，通过连续动作生成实现柔性控制输出，解决非刚性物体操作难题。
科研机器人实验：输入复杂多步骤任务描述，输出可解释动作序列，用于具身智能与控制策略研究。
多机器人协作系统：输入协同任务指令，输出多机械臂分工动作序列，实现协同搬运与装配任务。

Wall-OSS-0.5常见问题

Wall-OSS-0.5是否支持零样本部署？

支持，根据17任务测试中4项达到80%以上进度表现，说明预训练已具备基础执行能力，适用于部分结构化任务，但复杂任务仍建议微调优化。

Wall-OSS-0.5和π0.5哪个好？

在15任务微调中Wall-OSS-0.5达到60.5%高于π0.5的43.0%，差异源于Gradient-Bridge机制，但π0.5在部分家庭任务稳定性仍有优势。

Wall-OSS-0.5如何计费或使用成本？

模型本身开源免费，但训练成本较高，主要来源于100万轨迹/epoch数据处理与分布式训练资源消耗。

Wall-OSS-0.5支持实时控制吗？

支持有限实时推理，Flow Matching用于连续动作生成，但在高频控制场景存在延迟约束，更适合准实时机器人任务。

Wall-OSS-0.5是否开源？

是，提供模型权重、训练代码与推理脚本，但部分训练细节仍在逐步开放，适合研究与二次开发使用。

# AI模型 # 具身机器人控制 # 视觉语言动作模型

本站文章版权归AI工具箱所有，未经允许禁止任何形式的转载。

M2.5 – MiniMax推出的编程与Agent执行旗舰大模型

老高

724 0

MAI-Transcribe-1.5 – 微软推出的多语言语音转写与企业级ASR模型

老高

404 1

MiniCPM5-1B – 面壁智能开源的端侧轻量大语言模型

老高

673 1

悟界·RoboBrain Orca – 智源推出的多模态世界表征与具身智能模型

老高

104 1

Claude Opus 4.8 – Anthropic发布旗舰级Agentic大语言模型与推理系统

老高

1,048 1

MAI-Voice-2 – Microsoft AI推出的多语言文本转语音与语音克隆模型

老高

432 1

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...