首页 > 教程攻略 > ai资讯 >Wall-OSS-0.5 - 自变量机器人开源的国产具身智能模型

Wall-OSS-0.5 - 自变量机器人开源的国产具身智能模型

来源：互联网时间：2026-05-29 08:48:10

Wall-OSS-0.5是什么

先把结论摆在这儿：Wall-OSS-0.5是自变量机器人开源的一款国产具身智能大模型，属于视觉-语言-动作（VLA）大模型。它的亮点在于——具备零样本能力，也就是说，模型不需要为特定任务做微调，直接就能部署到真实机器人上执行操作。这背后靠的是名为“Gradient-Bridge”的协同训练方法，将动作能力注入到基础模型骨干中，最终让机器人可以完成搬运、分拣等17个真实任务。其中，有4个任务的完成率超过了80%。

Wall-OSS-0.5的主要功能

零样本真实机器人操作
：预训练好的检查点，拿来就能装到物理硬件上。不用为特定任务再折腾微调，直接执行抓取、排序、整理这些操作。一句话：预训练即部署。
多形态统一适配
：单个预训练检查点就能适配20多种机器人形态，包括桌面双臂、移动操作等。传统方案每换一种硬件就得单独训练一套模型，这个设计打破了那种局限。
三目标协同训练
：离散动作预测、多模态预测、连续流匹配，三个优化目标放在一起训练，形成一个“梯度桥接”的效果。动作学习和视觉语言理解互不干扰，反而能互相提升。
混合专家架构（MoT）
：视觉-语言令牌走VL Expert路由处理，连续动作计算交给Action Expert，两者通过联合注意力机制实现端到端梯度流动。语言理解和动作生成都不耽误。
视觉语言能力保持
：动作训练不会削弱基础VLM的能力。实体grounding能力反而提升了21.8个百分点，通用视觉-语言理解与推理能力完整保留。
高效微调适配
：在LeRobot数据集上微调之后，15项真实机器人任务的平均进度达到了60.5%，比同类模型π0.5高出了17.5个百分点。
强泛化与长程执行
：即便是3项从未见过的任务（比如变形物体操作），依然能保持高进度。同时支持多阶段连续操作，比如绳索收紧、抹布折叠、果篮整理这类长程任务。

Wall-OSS-0.5的技术原理

4B参数VLA架构
：以30亿参数的Qwen2.5-VL视觉语言模型作为骨干，再加上动作生成组件，总参数量达到40亿。视觉感知、语言理解、机器人动作生成，端到端统一在了一起。
混合专家路由（MoT）
：视觉-语言令牌通过VL Expert路由处理，连续动作计算由独立的Action Expert负责。二者通过联合注意力机制端到端地流动梯度，避免动作训练干扰语言理解。
梯度桥接协同训练
：把离散动作预测、多模态预测、连续流匹配这三个互补的优化目标放在一起协同训练，形成一个“梯度桥接”。动作策略学习和视觉语言预训练知识相互增强，而不是互相冲突。
连续流匹配动作生成
：用Flow Matching技术对连续动作空间建模。相比传统的离散化或回归方法，它能生成更平滑、更高维的机器人控制信号。
预训练即部署设计
：通过大规模异构数据预训练，模型在预训练阶段就习得了通用的物理操作先验。检查点可以直接在真实机器人上零样本推理，不需要任务特定的微调后处理。
大规模异构训练数据
：覆盖20多种机器人形态，每轮训练包含超过100万条真实机器人轨迹。同时还融合了9000万条多模态语料，其中包含1200万实体桥接样本。采样策略是大约60%自采数据、40%开源数据，任务平衡做得不错。
联合注意力与端到端优化
：VL Expert和Action Expert共享注意力计算图。语言指令、视觉场景、动作输出在特征层面深度耦合，梯度可以跨模态双向传播。
能力解耦保持机制
：三目标协同加上专家分离设计，动作训练不会侵蚀基础VLM的能力。实体grounding能力提升21.8个百分点，通用视觉-语言理解与推理能力也完整保留了下来。

如何使用Wall-OSS-0.5

环境准备
：先创建一个Python 3.10的conda环境，安装PyTorch等基础依赖。注意，要确保安装了Flash Attention 2.7.4及以上版本，能起到加速推理的作用。
安装LeRobot库
：克隆Hugging Face上的LeRobot仓库，checkout到指定的兼容版本，然后执行pip install -e .完成安装。
安装Wall-X工具链
：克隆wall-x开源仓库，运行git submodule update --init --recursive拉取子模块，再执行安装命令完成工具链部署。
下载预训练权重
：到Hugging Face的x-square-robot/wall-oss-0.5下载官方发布的预训练模型检查点。
配置机器人参数
：根据目标机器人的类型（桌面双臂、移动操作等），设置自由度（DOF）配置、模型路径、数据路径以及训练超参数。
执行微调（可选）
：如果希望针对特定任务优化，可以在LeRobot格式的数据集上运行微调脚本，例如bash ./workspace/lerobot_example/run.sh，以提升任务表现。
部署到真实硬件
：加载预训练或微调后的检查点，在真实机器人硬件上执行零样本推理或微调后推理，直接输出可执行的机器人控制策略。

Wall-OSS-0.5的核心优势

部署即用
：传统VLA模型必须先微调才能用，而这个模型预训练检查点直接就产生了可执行的机器人策略。
高效适应
：在15项真实机器人任务上微调后，平均进度60.5%。π0.5是43.0%，高出17.5个百分点。
强泛化能力
：3项从未见过的任务（比如变形物体操作）依然保持高进度。绳索收紧任务能达到82%。
视觉语言能力保持
：动作训练不会侵蚀基础VLM能力。实体grounding能力提升21.8个百分点，通用VL能力完整保留。
数据规模领先
：覆盖20多种机器人形态，每轮100万+轨迹，9000万多模态样本。

Wall-OSS-0.5的项目地址

项目地址：https://x2robot.com/oss#resources
Github仓库：https://github.com/X-Square-Robot/wall-x
论文地址：https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的同类竞品对比

直接看对比表格更清楚：

对比维度	Wall-OSS-0.5	π0.5	OpenVLA
开发机构	自变量机器人（X Square Robot）	Physical Intelligence（PI）	Stanford等学术机构
参数规模	40亿（3B Qwen2.5-VL骨干）	未公开（基于π0架构扩展）	70亿（LLaMA 2-7B骨干）
核心架构	MoT混合专家+梯度桥接协同训练	Transformer分层推理+动作专家	Prismatic VLM（SigLIP + DINOv2 + LLaMA 2）
动作生成方式	离散token与连续流匹配协同优化	高层离散token自回归+低层流匹配去噪	将动作视为语言模型词汇表中的离散token预测
训练数据规模	20+种机器人形态，每轮100万+轨迹，9000万多模态样本	网络数据+跨机器人经验+口头指令多源协同	Open X-Embodiment数据集97万条轨迹
零样本部署能力	预训练检查点直接部署，17项任务中4项进度超80%	预训练后需后训练/微调，不直接支持零样本硬件部署	预训练模型需任务特定微调，不支持直接零样本部署
微调后性能	15项真实任务平均进度60.5%，领先π0.5达17.5个百分点	真实家庭环境任务成功率60%-88%，复杂指令遵循率高	WidowX / Google Robot多任务成功率领先RT-2-X 16.5%
开源程度	完全开源（权重、训练代码、配方、消融实验）	研究发布，部分技术细节公开	完全开源（模型权重、代码、LoRA/量化微调方案）
核心创新点	梯度桥接实现预训练即部署，动作与VL能力协同增强不互损	开放世界泛化与层次化推理（高层语义规划+低层动作执行）	首个全面开源的通用VLA，验证VLM直接微调生成动作的可行性
VLM能力保持	实体grounding提升21.8%，通用VL理解与推理能力完整保留	依赖网络数据维持语义理解，动作训练后需专门保持	基于预训练VLM微调，语言能力基线较高

Wall-OSS-0.5的应用场景

家庭服务
：积木排序、水果分类、抽屉整理、戒指堆叠这些日常家务操作，都能胜任。
柔性物体处理
：绳索收紧、抹布折叠、插花这类变形物体操作任务，也没问题。
工业装配
：精密零件抓取、颜色分类、工具归位等重复性制造流程，可以用来提升自动化水平。
双臂协作
：需要双手配合完成的复杂装配、整理及长程组合动作，这个模型也能应对。
长程任务执行
：多阶段连续操作，比如前面提到的果篮整理这类需要持久注意力的多步骤任务。

Wall-OSS-0.5 - 自变量机器人开源的国产具身智能模型

Wall-OSS-0.5是什么

Wall-OSS-0.5的主要功能

零样本真实机器人操作

多形态统一适配

三目标协同训练

混合专家架构（MoT）

视觉语言能力保持

高效微调适配

强泛化与长程执行

Wall-OSS-0.5的技术原理

4B参数VLA架构

混合专家路由（MoT）

梯度桥接协同训练

连续流匹配动作生成

预训练即部署设计

大规模异构训练数据

联合注意力与端到端优化

能力解耦保持机制

如何使用Wall-OSS-0.5

环境准备

安装LeRobot库

安装Wall-X工具链

下载预训练权重

配置机器人参数

执行微调（可选）

部署到真实硬件

Wall-OSS-0.5的核心优势

部署即用

高效适应

强泛化能力

视觉语言能力保持

数据规模领先

Wall-OSS-0.5的项目地址

Wall-OSS-0.5的同类竞品对比

开发机构

参数规模

核心架构

动作生成方式

训练数据规模

零样本部署能力

微调后性能

开源程度

核心创新点

VLM能力保持

Wall-OSS-0.5的应用场景

家庭服务

柔性物体处理

工业装配

双臂协作

长程任务执行

相关阅读

相关下载